Dove trovare raccolte di dati (dataset) utilizzabili gratuitamente

Quando si entra nel fantastico mondo dell'analisi dei dati il primo ingrediente che serve sono... i dati. E le raccolte di dati diventano fondamentali anche in seguito quando, ad esempio, si vuole addestrare un modello di machine learning. In questa pagina annoto i siti dai quali è possibile scaricare gratuitamente e legalmente dataset curati di dati. Chiunque può contribuire segnalandone di nuovi nei commenti

Meta Datasets. La pagina dei Datasets di Meta AI offre un'incredibile raccolta di dataset su larga scala e benchmark per l'addestramento, il test e la valutazione dei modelli di intelligenza artificiale. I dataset coprono vari ambiti come la segmentazione degli oggetti, modelli visione-linguaggio, ricostruzione 3D, equità algoritmica e traduzione automatica. Esempi includono il dataset SA-V per la segmentazione, FACET per valutare l'equità nei modelli visivi e Ego4D per la comprensione di video in prima persona. Tutti i dataset possono essere scaricati gratuitamente.

Kaggle ha un'intera sezione dedicata ai dataset, che possono essere liberamente scaricati e utilizzati per esercitarsi. Si trovano raccolte di dati di natura diversissima: i modelli di smartphone, con tutte le loro caratteristiche e fascia di prezzo; le raccolte di tweet per addestrare i modelli di machine learning ad indentificare i discorsi di incitamento all'odio e il linguaggio offensivo; le performance degli studenti liceali dei Paesi OECD in matematica, lettura e scienze e così via. Insomma, se hai bisogno di un database per un progetto, molto probabilmente su Kaggel - Dataset (https://www.kaggle.com/datasets) troverai quello che ti serve.

Tra i tanti dataset di Kaggle, l'European Soccer Database è un'ottima raccolta (anche se non aggiornatissima) per chi intende affrontare progetti di sport analytics.

statsbomb mette a disposizione gratuitamente delle interessanti raccolte dedicate al mondo del calcio e del football americano; le trovi sulla loro pagina github. Tra i data set dedicati al calcio e scaricabili gratuitamente troviamo quelli relativi al campionato spagnolo (La Liga) 2015/16, a EURO femminile 2022, alla 17 stagioni di Messi nel Barcellona ("ogni tocco, ogni passaggio, ogni dribbling"), alle stagioni 2018/19, 2019/20, 2020/21 della Super League Femminile inglese, oltre a una raccolta dedicata alla storia (più o meno) del calcio, ecc.

RapidAPI è una piattaforma che consente di accedere a migliaia di API diverse, dallo sport alla finanza. 

API-Football è una piattaforma che fornisce API per dati, aggiornati e dettagliati, statistiche e informazioni sul mondo del calcio, tra cui risultati delle partite, classifiche, formazioni, statistiche sui giocatori e molto altro ancora. In aggiunta ai piani a pagamento, è disponibile anche un piano gratuito che si differenzia da quelli a pagamento sostanzialmente per il numero di chiamate al minuto e al giorno che è possibile fare. (Per impostare rapidamente la tua prima connessione a API-Football e iniziare a scaricare i dati ti suggerisco "How to get excellent football data for free with API football")

gigaset condivide raccolte di dati di soggetti vari, ad esempio: le variabili per un City Happiness Index, i fattori correlati agli infarti, i livelli di monossido di carbonio in norvegia dal 1994 al 2022, le performance delle squadre della NFL dal 2003 al 2023 e così via. Per scaricare i file è necessario registrarsi (e la registrazione è gratuita)

Gli appassionati di metereologia e di clima possono cimentarsi con i dataset messi a disposizione dal C3S (Copernicus Climate Change Service). I dati sono accessibili anche tramite API.

dati.gov.it - i dati aperti della PA . Prosegue lo sforzo dell'AgID per valorizzare gli open data della PA. I dataset disponibili (più di 68 mila) sono raggruppati in 13 aree tematiche: Agricoltura, pesca, silvicoltura e prodotti alimentari; Ambiente; Economia e finanze; Energia; Giustizia, sistema giuridico e sicurezza pubblica; Governo e settore pubblico; Istruzione, cultura e sport; Popolazione e società; Regioni e città; Salute; Scienza e tecnologia; Trasporti. La qualità, purtroppo, non è eccelsa: lo stesso Piano Triennale dell'Informatica rileva che "... la qualità dei dati esposti non è ancora a un buon livello, se non in pochi casi virtuosi. In particolare i dati non sono sempre aggiornati e alcune iniziative risultano apparentemente abbandonate. Anche da un punto di vista di documentazione e metadatazione la situazione è insufficiente. La frequente mancanza di automazione e la conseguente modalità di aggiornamento manuale dei dati, la scarsa presenza di standard a livello nazionale e di API, l’adozione di svariate licenze, a volte tra loro incompatibili, sono fattori che ostacolano un più ampio riutilizzo dei dati." 




Commenti

Post popolari in questo blog

AI Will Transform the Global Economy. Let’s Make Sure It Benefits Humanity. - IFM blog

Building a high-performance data and AI organization - MIT report 2023