I dati sintetici per un’IA al servizio dei cittadini

Le sfide della privacy e dell’etica nella gestione dei dati per istruire l’Intelligenza Artificiale e l’approccio basato sui “dati sintetici”

PagoPA S.p.A.
PagoPA SpA
3 min readJul 24, 2024

--

Conversazione con Shalini Kurapati, cofondatrice di Clearbox AI

Foto di Conny Schneider su Unsplash

Quando parliamo di trasformazione digitale oggi ci riferiamo prevalentemente all’Intelligenza Artificiale e quindi all’utilizzo dei dati: qualsiasi modello di IA si basa sui dati, che sono il carburante principale per far girare il motore degli algoritmi. Per questo motivo oggi la vera sfida non è quella di creare nuovi modelli di Intelligenza Artificiale, ma di avere dei training data di qualità, che istruiscano modelli robusti, performanti, etici.

Il nostro approccio, con Clearbox AI, è di dare una risposta a questa sfida attraverso l’uso di “dati sintetici”: dati fittizi che creiamo partendo dal dato originale, di cui rileviamo tutte le proprietà statistiche. In questo modo facilitiamo l’utilizzo dei dati, mantenendo le stesse performance per le diverse applicazioni — dall’istruzione di motori di IA, agli analytics, allo sviluppo di nuovi prodotti — allo stesso tempo tutelando la privacy.

I pregiudizi dell’IA

L’utilizzo dei dati per istruire i modelli di IA non riguarda solo la privacy, ma anche la sfera etica. Tutti i modelli che vengono adottati sono “istruiti” da qualcuno, che a volte può trasmettere un pregiudizio.

Ad esempio, se sviluppiamo un prodotto per fornire migliori servizi ai cittadini, siamo certi di aver considerato tutta la popolazione target o abbiamo preso i dati solo di quelli più attivi digitalmente? Questo errore è stato commesso da una città europea che ha creato un modello con cui allocare risorse, utilizzando un algoritmo che raccoglieva le segnalazioni dei cittadini su problemi come la qualità delle strade. Un’analisi delle performance ha permesso di scoprire però che le segnalazioni arrivavano in prevalenza dalle zone della città più ricche, dove gli abitanti avevano più competenze per fare le segnalazioni, creando una disparità nell’allocazione delle risorse.

Nel nostro approccio, i dati sintetici possono aiutare in questo ambito, ad esempio facilitando l’adozione di dataset più ampi con cui istruire l’algoritmo. Un modo per rendere il modello più etico, ma anche più robusto e performante — perché un modello basato su una base dati insufficiente può sbagliare molto.

Foto di Mika Baumeister su Unsplash

Open data e servizi pubblici

Infine, soprattutto quando parliamo di utilizzo dei dati nei servizi pubblici, c’è un tema che riguarda l’accesso ai dati, la condivisione. Anche in questo caso i dati sintetici facilitano la pubblicazione del dataset, che garantisce la trasparenza dei modelli di IA nei confronti dei cittadini. Ma una maggiore condivisione dei dati può aprire anche altri scenari: i servizi pubblici possono permettere al cittadino di sfruttare l’informazione, i dati, per motivi che vanno dalla ricerca allo sviluppo di nuovi prodotti e iniziative di mercato.

In Italia, ad esempio, il principale operatore della mobilità su ferro ha messo a disposizione pubblicamente i dati relativi agli orari e al movimento dei treni, permettendo ad altri di creare app che si basano su queste informazioni per dare più servizi ai cittadini. Questa è una strada che offre grandi potenzialità per i servizi pubblici, attraverso piattaforme che abilitino altri attori nel fare ricerca, sviluppare prodotti, offrire nuovi servizi.

--

--

PagoPA S.p.A.
PagoPA SpA

I servizi pubblici digitali, sempre più facili da usare e a misura di cittadino. Società pubblica, vigilata dalla Presidenza del Consiglio. Sviluppiamo l’app IO