I «Linked Data» delle scuole italiane

Gli open data del MIUR rivisitati come «Linked Open Data» a 5 ⭐️ per Wikidata

Cosa c’è di più bello degli open data? Semplice: gli open data a 5 ⭐️. Nessun riferimento politico, bensì un semplice metodo di classificazione degli open data proposto da Sir Tim Berners-Lee, inventore del Web e appassionato promotore del Web semantico. Vediamo come funziona.

Immagine del World Wide Web Consortium
  • Un dataset è classificato con una (⭐️) se è disponibile su internet con una licenza aperta, indipendentemente dal formato. Un PDF è più che sufficiente. Per esempio questo.
  • I nostri dati diventano a (⭐️⭐)️ se sono anche strutturati e facilmente leggibili da una macchina. Dobbiamo trasformare l’immagine di prima perlomeno in formato Excel.
  • Se volessimo le (⭐️⭐️⭐️), dovremmo rendere disponibili i nostri dati in un formato aperto non proprietario, come questo CSV.
  • Un dataset diventa a (⭐️⭐️⭐️️️⭐️️️) se è rappresentato tramite il Resource Description Framework (RDF) e i dati al suo interno sono univocamente identificati per mezzo di Uniform Resource Identifier (URI).
  • Per arrivare alle fatidiche (⭐️⭐️⭐️️️⭐️️️⭐️️️) dei «Linked Open Data», dovremo linkare i nostri dati ad altri dataset, e contestualizzare il nostro dataset in un mondo più ampio. Resource Description Framework e URI ci permettono di costruire questi “grafi” di informazione interconnessi, arricchendone sensibilmente le potenzialità. A tal proposito, può essere interessante dare un’occhiata alla Linked Open Data Cloud.

I dati della scuola italiana a ⭐️⭐️⭐️️️⭐️️️⭐️️️

Mi rendo conto che il primo approccio con questi concetti possa sembrare piuttosto oscuro. In fin dei conti, perché abbandonare i familiari CSV per addentrarci in questo strano mondo del Web di dati? Cerchiamo di capirlo con un esempio.

Il Ministero dell’Istruzione, dell’Università e della Ricerca (MIUR) mette a disposizione un’interessante sezione di Open Data sul Portale Unico dei Dati della Scuola.

http://dati.istruzione.it/opendata/opendata/catalogo/elements1/?area=Scuole

Si tratta di dataset a (⭐️⭐️⭐️⭐)️. Sono presenti tutti i requisiti necessari, compresa la rappresentazione in RDF che ci assicura la quarta ⭐. Siamo a buon punto, ma manca ancora la contestualizzazione.

Wikidata: un buon modo di linkare un contesto

Wikidata, progetto lanciato da poco più di un lustro dalla Wikimedia Foundation, è un “deposito” centralizzato di Linked Open Data. Si tratta di un progetto basato su Blazegraph (un triplestore ossia un DBMS per RDF) ed aperto a tutti. Naturalmente, è possibile visualizzare i dati o interrogarli con query in SPARQL, un cugino dell’SQL, ma per RDF.

In pieno stile wiki, chiunque può aggiungere o editare concetti. Gli edit possono essere fatti tramite interfaccia Web, oppure usando le API ufficiali di MediaWiki.

Così ho fatto anche io. Per ognuna delle 65k+ scuole italiane documentate nel portale del ministero ho creato una pagina di asserzioni come questa.

https://www.wikidata.org/wiki/Q52953346

Come vedete, ho asserito che:

  • Barriera Nizza è una scuola per l’infanzia
  • Barriera Nizza si trova in Italia
  • Barriera Nizza si trova a Torino
  • Barriera Nizza è sita all’indirizzo “V.L.Da Vinci 8, 10126 Torino

Eccolo il contesto che cercavamo! Il concetto che descrive la scuola Barriera Nizza è collegato ai concetti descriventi Torino, l’Italia, la scuola per l’infanzia, eccetera. Questi concetti, a loro volta, sono descritti da una serie di nuovi statement che arricchiscono lo spazio informativo da cui eravamo partiti.

La scuola Barriera Nizza è a Torino. “Scopriamo” che Torino, per esempio, è una città che nel 2017 contava 886.837 abitanti, chiamati torinesi, il cui attuale sindaco è Chiara Appendino, laureata alla Bocconi, che è un’istituzione universitaria fondata nel 1902, che sta Milano, eccetera, eccetera, eccetera. Potremmo ancora continuare questa passeggiata sul grafo di dati per moltissimi step.

Importante notare che questi dati di contesto sono stati caricati e curati da altre persone. Per sfruttare questa conoscenza, mi è bastato creare la scuola Barriera Nizza e mappare la sua descrizione sui dati già esistenti, cosa che chiunque potrebbe fare a sua volta, usando i dati che ho aggiunto io.

Come sfruttare il contesto

Beh, ora l’unico limite è davvero la fantasia. Possiamo costruire query che sfruttano questo Web di dati arricchiti spaziando tra diversi ambiti. Il nostro dataset di partenza, pur a 4⭐️, non ce lo avrebbe permesso. Per esempio, possiamo chiederci:

quali sono le scuole che stanno in una città amministrata da un sindaco appartenete al partito X e che ha meno di Y anni?

oppure:

quali sono le scuole che stanno un una città gemellata con una città francese?

o ancora più concretamente:

quante scuole per l’infanzia ci sono in rapporto al numero di abitanti nelle città italiane con almeno 5.000 abitanti ?

Potete vedere questa query in azione qui: http://tinyurl.com/y9cqynk8.

Ho fatto renderizzare il risultato su mappa. Il colore dei punti rappresenta il numero di scuole per l’infanzia ogni 10.000 persone.

http://tinyurl.com/y9cqynk8

Tutto questo è possibile grazie ai Linked Open Data. Ecco perché a volte può valer la pena fare quel passo in più, al di là del CSV… e oltre!

Per aspera ad linked astra.

^..^