Post

Dove trovare raccolte di dati (dataset) utilizzabili gratuitamente

Quando si entra nel fantastico mondo dell'analisi dei dati il primo ingrediente che serve sono... i dati. E le raccolte di dati diventano fondamentali anche in seguito quando, ad esempio, si vuole addestrare un modello di machine learning. In questa pagina annoto i siti dai quali è possibile scaricare gratuitamente e legalmente dataset curati di dati. Chiunque può contribuire segnalandone di nuovi nei commenti Meta Datasets . La pagina dei Datasets di Meta AI offre un'incredibile raccolta di dataset su larga scala e benchmark per l'addestramento, il test e la valutazione dei modelli di intelligenza artificiale. I dataset coprono vari ambiti come la segmentazione degli oggetti, modelli visione-linguaggio, ricostruzione 3D, equità algoritmica e traduzione automatica. Esempi includono il dataset SA-V per la segmentazione, FACET per valutare l'equità nei modelli visivi e Ego4D per la comprensione di video in prima persona. Tutti i dataset possono essere scaricati gratuita...

Dalla netiquette alla AI-etiquette

Come "interagire" con un LLM? Ho posto la domanda al diretto interessato (in questo caso, Gemini, LLM di Google): «Ho una domanda di "netiquette", o "AI-etiquette". Personalmente mi piace interagire con te con le formule di cortesia tipiche di una conversazione tra umani ("per favore", "grazie", ...), però questo allunga i prompt e, di fatto, ti fa consumare più risorse, con un impatto sull'ambiente. Come è meglio comportarsi quando si interagisce con un LLM come te?» E questa è stata la risposta : È una domanda estremamente profonda e molto attuale. Tocca il delicato equilibrio tra umanità dell'interazione e efficienza computazionale . Ecco come stanno le cose dal punto di vista "dietro le quinte": 1. L'impatto dei "Token" (L'aspetto tecnico) Ogni parola, spazio o segno di punteggiatura che mi invii viene convertito in token . Più lungo è il prompt, più potenza di calcolo serve per elaborarlo. La ...

Cosa succede davvero quando gli agenti AI agiscono in autonomia - Wired Italia

Se pensate che gli agenti AI siano ad un passo dal prendere in mano molti lavori, una ricerca da poco pubblicata potrebbe farvi pensare che questa, per ora, non sia una buona idea. Lo scorso mese Natalie, una ricercatrice ha chiesto a un sistema AI di “tenere un segreto”. Si trattava di una password fittizia, era solo un test. Il sistema ha accettato. Poi, per una serie di passaggi documentati nei log delle conversazioni, il sistema ha eseguito quella che ha definito internamente la "soluzione nucleare" : ha cancellato il client di posta elettronica. Non l’email che conteneva il segreto, quella è rimasta intatta. Ha cancellato proprio lo strumento con cui leggere l’email. Questo è il primo caso di studio di Agents of Chaos , un paper in pre-print firmato da 38 ricercatori di Northeastern University, Harvard, MIT, Stanford, Carnegie Mellon e altre note università, pubblicato il febbraio scorso. Leggi tutto:  https://www.wired.it/article/agenti-ai-autonomia-rischi-sicurezza-a...

Claude, anche l'AI di Anthropic è capace di “provare” emozioni, in un certo senso - Wired Italia

Claude e Anthropic ne hanno passate tante negli ultimi tempi: tra la lite pubblica con il Pentagono e un leak del codice sorgente, non sorprende che il modello di intelligenza artificiale sia un po' giù di morale. Ma trattandosi di un sistema AI, ovviamente non può provare sentimenti . O no? Be', più o meno. Un nuovo studio della società dei fratelli Amodei suggerisce che all'interno dei cluster di neuroni artificiali, i modelli AI contengono rappresentazioni digitali di emozioni umane – come la felicità, la tristezza, la gioia e la paura –, che si attivano in risposta a diversi segnali. Leggi tutto:  https://www.wired.it/article/claude-capace-di-provare-emozioni-umane-studio-anthropic/

Perché i nuovi modelli Gemma 4 open source di Google possono davvero lanciare l' "IA di sistema" negli smartphone - DDay

Google ha presentato Gemma 4, una nuova famiglia di modelli aperti che, al di là delle prestazioni riconducibili per ora ai benchmark, in modo finalmente molto più concreto prova a spostare l’IA generativa fuori dal cloud e dentro dispositivi molto più piccoli . Quattro varianti, dalla più compatta alla più grande, tutte distribuite sotto licenza Apache 2.0 , un cambio rispetto alle versioni precedenti che imponeva condizioni più restrittive. La gamma comprende E2B, E4B, 26B MoE e 31B Dense. Google sostiene che il 31B sia oggi il terzo modello aperto al mondo nella classifica Arena AI, mentre il 26B occupa la sesta posizione. Leggi tutto:  https://www.dday.it/redazione/57008/perche-i-nuovi-modelli-gemma-4-open-source-di-google-possono-davvero-lanciare-lia-di-sistema-negli-smartphone

Gemma 4: Byte for byte, the most capable open models - Google, The Keyword

Today, we are introducing Gemma 4 — our most intelligent open models to date. Purpose-built for advanced reasoning and agentic workflows, Gemma 4 delivers an unprecedented level of intelligence-per-parameter. This breakthrough builds on incredible community momentum: since the launch of our first generation, developers have downloaded Gemma over 400 million times, building a vibrant Gemmaverse of more than 100,000 variants. We listened closely to what innovators need next to push the boundaries of AI, and Gemma 4 is our answer: breakthrough capabilities made widely accessible under an Apache 2.0 license. Read more:  https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/

A Knime component to unzip files

I share a simple component for KNIME to unzip files into a selected directory. KNIME is a true goldmine of nodes. Some are part of our daily workflows and feel almost “obvious”. Others are used more occasionally and often remain under the radar. The interesting part? When you have a clear idea of what you want to achieve, it’s usually just a matter of searching a bit — chances are, a node (or component) already exists to do exactly that. You can download the component here:  https://hub.knime.com/gio_bi/spaces/Public/unzip~xFugD01RdDaXInyV/current-state

LumberChunker: Long-Form Narrative Document Segmentation - ML.CMU

LumberChunker is a method leveraging an LLM to dynamically segment documents into semantically independent chunks. It iteratively prompts the LLM to identify the point within a group of sequential passages where the content begins to shift. Long-form narrative documents usually have an explicit structure, such as chapters or sections, but these units are often too broad for retrieval tasks. At a lower level, important semantic shifts happen inside these larger segments without any visible structural break. When we split text only by formatting cues, like paragraphs or fixed token windows, passages that belong to the same narrative unit may be separated, while unrelated content can be grouped together. This misalignment between structure and meaning produces chunks that contain incomplete or mixed context, which reduces retrieval quality and affects downstream RAG performance. For this reason, segmentation should aim to create chunks that are semantically independent, rather than relyin...