Cara AgID, ma questi sono OpenData ?

TL;DR: AgID pubblica dati sul monitoraggio dell’Agenda Digitale pressoché inutili, e li chiama OpenData. Peccato che non siano conformi alle Linee Guida che AgID propone alle PA :-(

Pensate che il caldo africano mi abbia dato alla testa ? Seguitemi e poi giudicate voi ….

Il primo di agosto AgID ha pubblicato un nuovo “sistema” per il monitoraggio del Piano Crescita Digitale, e nell’ annuncio ha evidenziato che i dati erano disponibili in OpenData.

Sono andato a guardarli, anche perché mi occupo non solo di OpenData ma anche di SPID e PagoPA ed i dati mi sarebbero stati proprio utili.

Con mio disappunto ho scoperto che trattasi di una bella operazione di comunicazione che dal punto di vista dei dati è di scarsissima utilità.

Bei grafici, anche se a volte con delle scale discutibili. Se le PA aderenti a PagoPA, che nel 2017 crescono da 13.250 a 15.127, li rappresenti con una scala delle ordinate che parte da 13.000 la retta sembra crescere moltissimo, anche se la crescita è solo del 14%.

Mi dirigo alla sezione OpenData, che si trova QUI , nella convinzione di trovare ulteriori dettagli, ma ahimè qui c’è la prima brutta sorpresa: non c’è la licenza d’uso dei dati !

Al link Privacy Policy e note legali a fondo pagina, oltre a pagine e pagine di policy su trattamento dei dati personali (che non si capisce a chi si riferiscano visto che per il 90% trattasi di entità giuridiche come PA e imprese, non tutelati dal codice privacy), l’unico riferimento alle policy d’uso dei dati denominati “open data” è questa frase:

I documenti presenti in questo sito per lo scaricamento (download), salvo diversa indicazione, sono liberamente e gratuitamente disponibili, in caso contrario viene prodotto un avviso come premessa nell’uso degli stessi.

Cioè ? Posso scaricarli gratuitamente e poi ? Cosa posso farci ?

Qualcuno dirà che vale l’art. 52 comma 2 del CAD, ma Linee Guida Nazionali per la Valorizzazione del Patrimonio Informativo Pubblico di cui AgiD ha pubblicato la terza versione il 3 agosto recitano:

AZIONE 12
ASSICURATI DI ASSEGNARE UNA LICENZA AI DATASET…
L’informazione sul tipo di licenza è metadato indispensabile per determinare come poter riutilizzare il dataset. Deve pertanto essere sempre specificata indicando, il nome, la versione e fornendo il riferimento al testo della licenza.

Va beh diciamo che le LLGG sugli OpenData le hanno pubblicate due giorni dopo, mica potevano saperlo !

Inoltre, sempre le LLGG di AgID prescrivono:

AZIONE 4
CORREDA I DATI CON I RELATIVI METADATI …
La metadatazione ricopre un ruolo essenziale laddove i dati sono esposti a utenti terzi e a software. I metadati, infatti, consentono una maggiore comprensione e rappresentano la chiave attraverso cui abilitare più agevolmente la ricerca, la scoperta, l’accesso e quindi il riuso dei dati stessi. A tale scopo, si adotta il modello per i metadati rappresentato in Figura 3.

A occhio non mi pare sia presente alcun metadato ….

Ma la cosa più importante a mio avviso è quanto raccomandato in merito alla Qualità dei dati :

AZIONE 9
GARANTISCI LE SEGUENTI DIMENSIONI DI QUALITA’ DEI DATI …
Partendo dalle quattro caratteristiche, delle 15 previste dall’ISO/IEC 25012, individuate nella Determinazione Commissariale n. 68/2013 dell’AgID per le banche dati di interesse nazionale critiche, si garantisce il loro costante rispetto in tutto il processo di gestione e pubblicazione dei dati anche aperti. Queste quattro caratteristiche sono:
- accuratezza (sintattica e semantica) — il dato, e i suoi attributi, rappresenta correttamente il valore reale del concetto o evento cui si riferisce;
- coerenza — il dato, e i suoi attributi, non presenta contraddittorietà rispetto ad altri dati del contesto d’uso dell’amministrazione titolare;
- completezza — il dato risulta esaustivo per tutti i suoi valori attesi e rispetto alle entità relative (fonti) che concorrono alla definizione del procedimento;
- attualità (o tempestività di aggiornamento) — il dato, e i suoi attributi, è del “giusto tempo” (è aggiornato) rispetto al procedimento cui si riferisce.

Nel caso dei dati di PagoPA (ma è lo stesso per gli altri progetti) i dati pubblicati sono di utilità molto prossima a ZERO. Cosa serve sapere il numero di PA aderenti sono N in un determinato mese ? Giusto a sapere che aumentano nel tempo ….

Ma per chi lavora per la digitalizzazione della PA vorrebbe sapere QUALI sono le PA aderenti, quali sono attive, per quali tipologie di entrate, con quale intermediario o partner tecnologico, nonché quanti pagamenti hanno gestito le singole PA per ogni tipo di entrate, etc etc.

Solo così si potrebbero fare delle analisi di una qualche utilità, ad esempio per territorio e/o per tipologia di entrata o per tipologia di PA. I microdati in questi casi sono essenziali per la comprensione del fenomeno.

Anche questo è ben spiegato nelle LLGG dell’OpenData di AgID, in particolare nella sezione “Aspetti organizzativi” , nella Linea 1 — Dati nativi :

Sebbene sia sconsigliato restringere l’accesso ai dati o procedere con la pubblicazione di aggregazioni degli stessi (in generale non è opportuno che l’esposizione del dato lavorato avvenga senza che sia stato pubblicato prioritariamente il dato grezzo), esistono casi in cui i dati possono essere diffusi solo in forma anonima (ad esempio i redditi), ossia a un livello di aggregazione tale da impedire di identificare le persone cui i dati si riferiscono. A tal fine, è bene definire delle politiche di accesso ai dati in cui sia indicato un profilo di accesso specifico per ogni dato, dettato dai diritti sull’informazione di base, dalle norme o dalle policy in atto.

Mi pare sia chiaro: a meno che ci sia da proteggere la privacy di “persone” ( ma qui stiamo parlando di PA, enti, imprese) , è sconsigliato procedere con la pubblicazione di aggregazioni dei dati !

La mia speranza quindi è che vengano rilasciati dati utili a fare analisi che permettano di comprendere davvero l’andamento dei progetti strategici per la digitalizzazione del paese e permettano ai vari enti che collaborano alla digitalizzazione dei propri territori (es. le Regioni) di comprendere lo stato dell’arte e programmare politiche adeguate.

Magari seguendo le indicazioni di AgID, sempre nelle LLG su gli OpenData:

AZIONE 7
DEFINISCI UNA CHIARA STRATEGIA DI COINVOLGIMENTO INTERNO ED ESTERNO
Si raccomanda alle amministrazioni di accompagnare il modello operativo con azioni di coinvolgimento degli stakeholder sia interni all’amministrazione che esterni. Il coinvolgimento interno può avvenire attraverso la diffusione della cultura dei dati di qualità e aperti, facendo comprendere l’impatto di questa diffusione anche in termini semplificativi delle procedure interne.
Il coinvolgimento esterno passa in primo luogo dall’identificazione dei soggetti da coinvolgere (e.g., studenti universitari, soggetti preposti a indagini e analisi statistiche e/o economiche, startup e aziende). In secondo luogo esso passa dalla definizione della forma di coinvolgimento, da quella più semplice della comunicazione, anche interattiva, all’individuazione di scenari d’uso affiancati da forme più strutturate di coinvolgimento quali l’organizzazione di eventi per promuovere alcune tipologie di dataset e/o per analizzare casi d’uso, hackaton e app showcase.

Conclusione: si parla molto di data-driven policy o data-driven decision making, ma nella realtà la strada è ancora molto lunga …. ma mai scoraggiarsi, sono convinto che è questione di tempo ma prima o poi i dati verranno fuori :-)