Dove trovare raccolte di dati (dataset) utilizzabili gratuitamente
Quando si entra nel fantastico mondo dell'analisi dei dati il primo ingrediente che serve sono... i dati. E le raccolte di dati diventano fondamentali anche in seguito quando, ad esempio, si vuole addestrare un modello di machine learning. In questa pagina annoto i siti dai quali è possibile scaricare gratuitamente e legalmente dataset curati di dati. Chiunque può contribuire segnalandone di nuovi nei commenti
Meta Datasets. La pagina dei Datasets di Meta AI offre un'incredibile raccolta di dataset su larga scala e benchmark per l'addestramento, il test e la valutazione dei modelli di intelligenza artificiale. I dataset coprono vari ambiti come la segmentazione degli oggetti, modelli visione-linguaggio, ricostruzione 3D, equità algoritmica e traduzione automatica. Esempi includono il dataset SA-V per la segmentazione, FACET per valutare l'equità nei modelli visivi e Ego4D per la comprensione di video in prima persona. Tutti i dataset possono essere scaricati gratuitamente.
Kaggle ha un'intera sezione dedicata ai dataset, che possono essere liberamente scaricati e utilizzati per esercitarsi. Si trovano raccolte di dati di natura diversissima: i modelli di smartphone, con tutte le loro caratteristiche e fascia di prezzo; le raccolte di tweet per addestrare i modelli di machine learning ad indentificare i discorsi di incitamento all'odio e il linguaggio offensivo; le performance degli studenti liceali dei Paesi OECD in matematica, lettura e scienze e così via. Insomma, se hai bisogno di un database per un progetto, molto probabilmente su Kaggel - Dataset (https://www.kaggle.com/datasets) troverai quello che ti serve.
Tra i tanti dataset di Kaggle, l'European Soccer Database è un'ottima raccolta (anche se non aggiornatissima) per chi intende affrontare progetti di sport analytics.
statsbomb mette a disposizione gratuitamente delle interessanti raccolte dedicate al mondo del calcio e del football americano; le trovi sulla loro pagina github. Tra i data set dedicati al calcio e scaricabili gratuitamente troviamo quelli relativi al campionato spagnolo (La Liga) 2015/16, a EURO femminile 2022, alla 17 stagioni di Messi nel Barcellona ("ogni tocco, ogni passaggio, ogni dribbling"), alle stagioni 2018/19, 2019/20, 2020/21 della Super League Femminile inglese, oltre a una raccolta dedicata alla storia (più o meno) del calcio, ecc.
RapidAPI è una piattaforma che consente di accedere a migliaia di API diverse, dallo sport alla finanza.
API-Football è una piattaforma che fornisce API per dati, aggiornati e dettagliati, statistiche e informazioni sul mondo del calcio, tra cui risultati delle partite, classifiche, formazioni, statistiche sui giocatori e molto altro ancora. In aggiunta ai piani a pagamento, è disponibile anche un piano gratuito che si differenzia da quelli a pagamento sostanzialmente per il numero di chiamate al minuto e al giorno che è possibile fare. (Per impostare rapidamente la tua prima connessione a API-Football e iniziare a scaricare i dati ti suggerisco "How to get excellent football data for free with API football")
gigaset condivide raccolte di dati di soggetti vari, ad esempio: le variabili per un City Happiness Index, i fattori correlati agli infarti, i livelli di monossido di carbonio in norvegia dal 1994 al 2022, le performance delle squadre della NFL dal 2003 al 2023 e così via. Per scaricare i file è necessario registrarsi (e la registrazione è gratuita)
Gli appassionati di metereologia e di clima possono cimentarsi con i dataset messi a disposizione dal C3S (Copernicus Climate Change Service). I dati sono accessibili anche tramite API.
dati.gov.it - i dati aperti della PA . Prosegue lo sforzo dell'AgID per valorizzare gli open data della PA. I dataset disponibili (più di 68 mila) sono raggruppati in 13 aree tematiche: Agricoltura, pesca, silvicoltura e prodotti alimentari; Ambiente; Economia e finanze; Energia; Giustizia, sistema giuridico e sicurezza pubblica; Governo e settore pubblico; Istruzione, cultura e sport; Popolazione e società; Regioni e città; Salute; Scienza e tecnologia; Trasporti. La qualità, purtroppo, non è eccelsa: lo stesso Piano Triennale dell'Informatica rileva che "... la qualità dei dati esposti non è ancora a un buon livello, se non in pochi casi virtuosi. In particolare i dati non sono sempre aggiornati e alcune iniziative risultano apparentemente abbandonate. Anche da un punto di vista di documentazione e metadatazione la situazione è insufficiente. La frequente mancanza di automazione e la conseguente modalità di aggiornamento manuale dei dati, la scarsa presenza di standard a livello nazionale e di API, l’adozione di svariate licenze, a volte tra loro incompatibili, sono fattori che ostacolano un più ampio riutilizzo dei dati."
Commenti
Posta un commento