Open data in Italia: un porto sicuro?

Andrea D'Eramo
4 min readSep 26, 2018

--

Riprendiamo il nostro viaggio alla ricerca del tesoro. Un porto obbligato è sicuramente il portale degli open data italiani www.dati.gov.it.

La home propone subito la navigazione tematica, ma non sono in ordine alfabetico e neanche per numerosità (per altro non indicata).

Cliccando sul tab dei dati è invece presente il totale dei dataset (21.394 al momento del post) e sulla sinistra dei filtri per categoria.

Il motore di ricerca sembra subito essere un lontano parente di Google: manca una ricerca avanzata ed anche specificando una parola ben precisa, i risultati non sempre sono quelli attesi. Cerco la parola “ricette” ed il motore lo interpreta come “ricettive”. Eppure (lo avevo già notato in precedenza) esiste un dataset con questo nome: Ricette tipiche del Trentino. Tra l’altro mi sta venendo un’idea su come analizzare proprio questo file. Lo vedremo in futuro, forse.

Passiamo ai filtri, sono solo 4: Temi, Organizzazioni, Formati e Licenze. Non sono particolarmente interessato a quest’ultima voce, ma dalle prime 3 sono certo di farmi un’idea dei contenuti presenti.

Parto dalle Organizzazioni per capire il livello di contribuzione delle amministrazioni. Scorrendo scopro che gli enti che contribuiscono sono 389 per un totale di 18134 dataset. Ne deduco che esistono oltre 3000 dataset di padre ignoto (di madre suonava brutto…).

Non denota una particolare attenzione ai dettagli.

Vediamo la classifica: Regione Lombardia prima con quasi 2500 dataset: Complimenti, davvero!

Ma è una mosca bianca. Per praticità metto in un grafico solo i più bravi e, anche con un campione minuscolo, la differenza tra i primi e gli altri balza all’occhio. Da sola la lombardia contribuisce con il 13% di tutti i dataset presenti!

Ripeto complimenti a loro (e a tutti i primi della lista), ma la situazione non è esattamente buona.

Ad una scorsa veloce mancano all’appello dei Comuni importanti (Roma, Torino…) e delle Regioni (Abruzzo, Calabria, Liguria, Molise, Piemonte e Valle D’Aosta) e praticamente tutti i ministeri. Eppure gli open data li producono, basta vedere sui loro siti.

Non va meglio con certe amministrazioni presenti nella lista, quelle che hanno fatto il compitino per non farsi fare la predica.

Regione Sicilia 21 dataset, Marche 24, Alto Adige 5. Forse saranno dataset d’oro?

Risulta evidente l’impossibilità di usare questi dati per fare analisi complete ed affidabili. E’ altresì evidente che, PAC e PAL, non federano i dati sul portale istituzionale come dovrebbero.

Passo ai formati per farmi un’idea della qualità dei dati forniti. Qui, ahimè, nessuna sorpresa: il 35% è in formato csv! Mentre l’Rdf viaggia intorno al 6.5%!!

Ed esistono persino 650 datatset di cui (teoricamente) non si conosce il formato!!!

Arrivo all’ultima categoria senza grosse speranze: i temi.

Basta sommarli per capire che qualcosa non va: 7483. Quindi la maggior parte non è categorizzata correttamente

Infine una chicca: esistono 2 dataset che si chiamano “marco”, nel cui contenuto preferisco non avventurami 😨

(***Aggiornamento post: vedi nota a fondo pagina***)

Non essendo mia intenzione ridurre questo social ad un elenco di buoni e cattivi, semplicemente rialzo le vele e cambio porto. Non siamo ancora maturi.

Non è un addio, ma un arrivederci

26 Settembre 2018

(***Aggiornamento del 2 ottobre 2018***)

Mi ero ripromesso di non tornare sulla questione per un po’ di tempo, ma mi hanno segnalato che i due dataset “Marco” sono stati prontamente eliminati e mi sembra giusto e doveroso correggere anche il post. Questo, credo, a dimostrazione che, chi fa un buon lavoro sugli open data (come la Regione Lombardia), lo fa in continuazione e non una tantum, con un processo continuo come gli open data richiedono.

Fonti:

dati.gov.it
opendatahandbook.org

Tool:

Paint 3d
calcolatrice

--

--