Generazione e verifica di notizie di qualità attraverso il Web Semantico: la storia di Liliana Segre

14 min readNov 19, 2019

La storia della bambina Liliana, oggi Senatrice della Repubblica Italiana.

In rete siamo continuamente invasi da fake news, articoli redatti con notizie inventate, ingannevoli o distorte, con il deliberato intento di disinformare attraverso i mezzi di informazione. I social network fanno da cassa di risonanza e le condivisioni amplificano a dismisura il problema.

La fake-news è un’informazione creata per disinformare ed è basata su fatti inventati. A sua volta questi fatti si basano su dati fasulli o inesistenti. Il dato di per sé è un numero, un testo, un’immagine, un video, un suono, un qualsiasi dato grezzo che assume significati differenti a seconda del contesto in cui si trova. L’informazione è quindi il dato nel suo contesto.

I dati costituiscono la dorsale su cui si innesta l’impalcatura della comunicazione. Ma più i dati sono autentici, veritieri, autorevoli, certificati e verificabili, più è difficile inventare fake-news.

Per cui mi chiedo, quali strumenti ha oggi il giornalista per scrivere e il lettore per verificare un episodio accaduto? Come poter tutelare la veridicità delle informazioni e allo stesso tempo individuare le bufale che si trovano in rete, attraverso sistemi automatizzati che consentano di isolare le vere notizie dalle fake-news?

Da diversi anni ormai esistono algoritmi di machine-learning e, in tempi più recenti, reti neurali di nuova generazione, in grado di allenare modelli predittivi, al fine di classificare testi informativi e stabilire, con una certa probabilità, quanto è “vera” una notizia. Ma la strada da percorrere è ancora tanta.

In un mondo utopico gli editori dovrebbero disporre di strumenti in grado di creare un ambiente nel quale pubblicare le informazioni e grazie al quale l’utente può interagire per verificare, in modo automatizzato, l’autenticità delle notizie. Se le informazioni sono basate su dati certi e autorevoli, l’editore dovrà allora mettermi nelle condizioni di credergli e, per fare ciò, mi dovrà fornire tutto l’occorrente per consentirmi, in modo più neutrale e automatico possibile, di verificare ciò che dice.

Proviamo a immaginare un spazio digitale all’interno del quale sia possibile pubblicare una informazione attraverso relazioni semantiche tra dati, cioè piccoli oggetti legati tra loro mediante connessioni semantiche. Proviamo a immaginare che la semantica di ciascun oggetto e delle sue connessioni sia stata definita in maniera formale utilizzando grammatiche comprensibili ai sistemi di elaborazione. Proviamo a immaginare che l’informazione generata dalle connessioni semantiche sia prodotta a partire da dati autorevoli, a disposizione e raggiungibili da chiunque, certificate da fonti considerate sicure. Proviamo a immaginare che il lettore, utilizzando semplicemente il proprio browser, senza quindi avere la necessità di installare software ad-hoc, plugin o estensioni varie, sia in grado di leggere una notizia e automaticamente poterne verificarne ogni sua parte.

Immaginiamo tutto questo

Questo articolo non vuole avere nessuna pretesa. Vuole solo raccontare l’idea, o meglio un possibile tentativo di ciò che potrebbe avvenire in un probabile futuro. Il mio intento non è quello di scrivere una puntata di Black Mirror, voglio solo immaginare un possibile approccio per ridurre il proliferare di fake-news mediante l’utilizzo delle reti semantiche. Voglio descrivere di un possibile quotidiano del futuro in grado di aiutare il lettore a verificare ciascuna notizia sulla base di fonti autorevoli e certificate, in modo più accessibile e neutrale possibile. Voglio poter pensare che nel futuro, un quotidiano semantico sia in grado di generare, in piena autonomia, tutte le notizie del giorno, senza omettere o falsificare i fatti. Voglio immaginare una macchina intelligente in grado di, partendo da più fonti, creare nuove connessioni semantiche tra oggetti reali e, mediante processi di ragionamento automatico, arrivare a generare nuova conoscenza.

Si tratta solo di riuscire a far pensare una macchina e a renderla intelligente.

Non nego un aspetto romantico e fantascientifico in tutto ciò. Tuttavia gli strumenti in grado di rappresentare la realtà in un modo comprensibile alle macchine esistono da decenni e vanno sotto il nome di Web Semantico.

Senza entrare in dettaglio sugli aspetti tecnici del Web Semantico (ne ho già parlato qui [1][2][3][4][5][6][7][8][9][10][11]), in questo articolo intendo sperimentare un possibile approccio al problema. Mi chiedo se sia possibile, con i dati attualmente disponibili, provare a creare notizie che siano certificate e verificabili. Mi chiedo se sia possibile confezionare una notizia tutelando il più possibile il lettore da informazioni ingannevoli e distorte, non supportate da dati autorevoli. Mi chiedo fino a quanto possiamo spingerci e dove invece siamo costretti a fermarci. Mi chiedo, quando leggiamo un fatto avvenuto in rete, cosa ci sia davvero dietro, quali sono le fonti del giornalista, dove ha reperito i dati, quale sia l’autorevolezza delle fonti e in che modo posso credere al 100% che i fatti accaduti siano effettivamente ciò che è successo.

Per fare quest’esperimento prenderò in considerazione i seguenti fatti:

L’8 dicembre 1943, una ragazzina di 13 anni di nome Liliana Segre, viene arrestata e successivamente deportata ad Auschwitz. Della sua famiglia, anche loro arrestati, sopravviverà solo lei.
Il 19 gennaio 2018 Liliana Segre, attiva testimone della Shoah italiana, viene nominata senatrice a vita dal presidente della Repubblica Sergio Mattarella, per aver illustrato la Patria con altissimi meriti nel campo sociale.
Come primo atto legislativo propone l’istituzione di una Commissione parlamentare di indirizzo e controllo sui fenomeni di intolleranza, razzismo, antisemitismo e istigazione all’odio e alla violenza.
Il 30 ottobre 2019 il Senato della Repubblica approva la mozione.
Il 7 novembre 2019, a causa delle crescenti minacce e insulti che le sono rivolti attraverso internet, il prefetto di Milano le assegna una scorta.

I dati da cui partire devono essere autorevoli, certificati e comprensibili dalle macchine e sono di seguito descritti.

Fondazione Centro di Documentazione Ebraica Contemporanea (CDEC)

È il principale istituto di ricerca per la storia degli ebrei in Italia in età contemporanea e possiede la più ampia raccolta di documentazione inerente la Shoah in Italia.
Alla fine del 2012 la Fondazione CDEC ha avviato un importante progetto di riorganizzazione e razionalizzazione del proprio sistema informativo e di digitalizzazione di alcune delle sue raccolte documentarie.
Una delle cose più interessanti di questo progetto è che i dati sono stati pubblicati in Linked-Data, per cui tutti i dati sono stati modellati attraverso un’ontologia creata ad-hoc sul dominio Shoah e resi disponibili tramite uno SPARQL endpoint. L’ontologia definisce la semantica che serve alle macchine per comprendere il significato dei concetti e il linguaggio SPARQL è il modo con cui è possibile interrogare i dati tra di loro connessi. I dati sono stati pubblicati secondo il paradigma dei Linked-Data.

Dal sito CDEC si legge:

L’ontologia sul dominio “Shoah” […] ha l’obiettivo di descrivere in maniera formale i concetti e le relazioni che caratterizzano e specificano il processo di persecuzione e deportazione degli ebrei dall’Italia fra il 1943 e il 1945. […]
Punto di partenza per la costruzione dell’ontologia sulla Shoah è stata la banca dati delle oltre 8000 vittime della persecuzione nazista e fascista in Italia, realizzata dalla Fondazione CDEC nel corso del pluridecennale lavoro di ricerca per l’individuazione e la verifica dei nomi e dei destini di ciascuna persona.

L’ontologia è rappresentata nella seguente figura:

Confesso che la prima volta che ho analizzato l’ontologia sono rimasto dolorosamente sconcertato dalla crudezza dei concetti del dominio. Il risultato del progetto della fondazione CDEC è di altissimo valore.
Abbiamo a disposizione il grafo di conoscenza (Knowledge Graph) della Shoah italiana i cui concetti e relazioni (cioè fatti) sono per la prima volta comprensibili dalle macchine. La fonte è autorevole, certificata e comprensibile dalle macchine.

Camera dei Deputati

La Camera dei Deputati, col progetto dati.camera.it, offre una piattaforma di pubblicazione e condivisione di linked-data sull’attività parlamentare; la fonte è autorevole, certificata e comprensibile dalle macchine, in quanto i dati vengono pubblicati usando descrittori semantici in grado di far emergere i collegamenti tra le risorse correlandole in base al loro significato. L’ontologia è rappresentata nella seguente figura.

Senato della Repubblica

Anche in questo caso il Senato della Repubblica, col progetto dati.senato.it, mette a disposizione i dati dell’attività parlamentare dei senatori in modalità linked-data: la fonte è autorevole, certificata e comprensibile dalle macchine. L’ontologia è rappresentata nella seguente figura.

Inizia adesso l’esperimento. Tutto ciò che dirò non sarà nulla di nuovo rispetto a quanto non sappiamo già. L’unica differenza è che saremo supportati da uno strumento di verifica automatica, non potremo falsificare i dati perché verremmo smascherati. Nel Web Semantico una macchina conosce il significato dei dati. Saprebbe lui stesso raccontarvi le notizie e lo farebbe sicuramente con meno errori di un umano. Io traccerò una pista narrativa, il mio racconto sarà data-driven, con una spolverata tecnologica di intelligenza artificiale.

La narrazione avverrà nel seguente modo: ogni fatto descritto sarà verificato con i dati sopra menzionati attraverso l’invocazione in tempo reale di una query SPARQL (il linguaggio usato dalle macchine per interrogare i dati), invocabile tramite il link [verifica] tra parentesi quadre. La narrazione vera e propria apparirà scritta in corsivo. Cominciamo.

Questa è la storia di 9012 persone che dal 1943 al 1945 furono perseguitate perché ebree. [verifica]

In campo di sterminio morirono 7553 persone, 215 morirono durante un eccidio, 80 morirono in stato di detenzione. Durante gli spostamenti morirono 21 persone mentre 19 persone morirono suicide. Altre 18 persone morirono durante l’arresto, tentando la fuga, per disagi e privazioni. I dispersi furono 3, di morte ignota 1. [verifica].

In tutto sopravvissero 1101 persone.[verifica]

Tra gli arrestati e deportati dall’Italia 364 erano ebrei stranieri. [verifica]

E provenivano principalmente dalla Polonia, dalla Romania, dalla Jugoslavia e dalla Francia.[verifica]

Il numero degli oppositori politici ammontava a 50 persone. [verifica]

Anche Elio Morpurgo, politico di origine ebraica, deputato del Regno d’Italia per 6 legislature, senatore del Regno d’Italia per una legislatura, per 4 volte nominato sottosegretario ministeriale, viene arrestato ad Udine nel marzo del 1944 e deportato ad Auschwitz: non sopravviverà alla Shoah.
[esegui]

I dati relativi ai mandati legislativi del deputato Elio Morpurgo sono stati estratti dai linked-data della Camera dei Deputati (CDD). La cosa più interessante del Web Semantico e dei Linked Data è che è possibile connettere in maniera nativa knowledge graph differenti. Nel caso in cui la stessa risorsa (in questo caso il deputato Elio Morpurgo) appartenga a più grafi, è possibile asserire l’uguaglianza delle singole risorse e la macchina potrà estrarre conoscenza da entrambe le fonti. Nel nostro caso il deputato Elio Morpurgo dalla fonte CDEC risulta essere collegato ai linked-data dello stesso deputato nella fonte CDD. È possibile effettuare quindi un’unica query federata e incrociare i dati per estrarre informazioni provenienti da entrambe le fonti? La risposta è assolutamente sì. Purtroppo però, a causa di un limite tecnico di configurazione nell’endpoint CDEC, non ci è consentito fare query federate dalla fonte CDEC. L’endpoint SPARQL della CDD consente invece di fare query federate. Purtroppo però, nel knowledge graph CDD, la risorsa relativa al deputato Elio Morpurgo non è collegata con la stessa risorsa nel knowledge graph del CDEC. Che fare quindi per incrociare automaticamente i dati con un’unica estrazione?

Fortunatamente entrambe le risorse, nei rispettivi grafi di conoscenza (CDEC e CDD), sono collegate alla risorsa Elio Morpurgo del grafo di conoscenza dbpedia.it. Tale risorsa può essere sfruttata come ponte di collegamento per congiungere il mondo CDEC con il mondo CDD. Capisco che tutti questi tecnicismi possono sembrare un po’ astrusi per i non addetti ai lavori ma, in sintesi, intendo spiegare come sia possibile consentire alle macchine interrogare più fonti in modo efficiente e in piena autonomia, con lo scopo di verificare i fatti. Siamo adesso in grado di estrarre i dati necessari a partire dalla fonte CDD. [verifica]

Prima di partire verso i campi di concentramento gli arrestati venivano trattenuti in luoghi di detenzione. Si trattava di 190 campi o prigioni [verifica] distribuiti geograficamente nell’Italia centro-nord. [verifica]

In base al luogo di arresto veniva scelta la prigione (campo di detenzione) più vicina. [verifica]

Il trasferimento nei campi di concentramento avveniva tramite la formazione di convogli ferroviari.[verifica]

E per ciascun convoglio partiva un treno carico di persone.[verifica]

All’interno di quei carichi c’erano anche bambini. [verifica]

Tra tutte le bambine ce n’era una nata il 10 settembre del 1930 che si chiamava Liliana Segre. [verifica]

Nasce a Milano da papà Alberto e mamma Lucia. Il nonno paterno si chiamava Giuseppe, la nonna paterna Olga Loevvy. Il nonno materno si chiamava Alfredo Foligno mentre la nonna materna si chiamava Bianca Levi. Anche lei, insieme al padre, al nonno Giuseppe e a nonna Olga, avrebbe fatto parte di uno dei convogli.
[verifica]

A differenza del Web tradizionale, dove ad essere collegati sono pagine Web, nel Web Semantico la connessione è a livello di dato e ogni collegamento rappresenta una relazione tipizzata da un’esplicita formalizzazione ottenuta tramite un linguaggio comprensibile alle macchine. Nel Web Semantico rappresentiamo una particolare realtà di interesse (il dominio di riferimento) mediante strutture a grafo in cui i nodi sono istanze di concetti (i cerchi in figura) e le connessioni tra i nodi sono le proprietà (le frecce in figura). Tale rappresentazione consente la navigazione tra dati mediante strumenti visuali (in questo caso è stato utilizzato LodLive) e le proprietà consentono di esplorare il grafo di conoscenza (knowledge graph) del dominio. Nel grafo in figura i cerchi verdi rappresentano risorse di classe “Persona”, i cerchi gialli risorse di classe “Persecuzione”. Le classi e le proprietà sono stati definite ex-ante da una ontologia sviluppata ad-hoc per modellare il dominio Shoah.

Giorno 8 dicembre 1943 Liliana viene arrestata a Selvetta di Viggiù, in provincia di Varese, all’età di 13 anni. Successivamente viene trasferita nel carcere di Milano. Dopo essere stata assegnata al convoglio n.6 (che passava anche da Verona), il 30 gennaio 1944 parte dalla stazione di Milano Centrale verso il campo di concentramento di Auschwitz, che raggiunge dopo 7 giorni. Alla selezione Liliana riceve il numero di matricola 75190 che le viene tatuato sull’avambraccio. Il 18 gennaio 1945 da Auschwitz viene trasferita al campo di Ravensbrueck. Il 28 gennaio 1945 viene trasferita da Ravensbrueck a Malchow. Viene liberata il 30 aprile 1945, unica superstite della sua famiglia. [verifica]

Anche in questo caso la rappresentazione semantica dei dati ci consente di visualizzare, in maniera più immediata, le connessioni tra i dati da cui è possibile generare automaticamente informazione.

Tornata libera si sposa con Alfredo Belli Paci da cui avrà tre figli: Alberto, Federica e Luciano. Oggi vive a Milano. [verifica]

Nel 2018 il presidente della Repubblica la nomina senatrice a vita. [verifica]

Stiamo adesso interrogando i dati dalla fonte del Senato della Repubblica

Come primo atto legislativo propone l’istituzione di una Commissione parlamentare di indirizzo e controllo sui fenomeni di intolleranza, razzismo, antisemitismo e istigazione all’odio e alla violenza. [Verifica]

Il 30 ottobre 2019 il Senato della Repubblica approva la mozione. [Verifica]

La prima interrogazione estrae tutte le commissioni a cui afferisce la senatrice Liliana Segre ma, purtroppo, non riusciamo a trovare la commissione appena costituita. Il motivo per cui la commissione non viene trovata ci viene fornito dalla seconda interrogazione, che estrae le ultime 100 votazioni elettroniche del Senato ma, purtroppo, i dati risalgono a novembre del 2016. Quindi i dati sono autorevoli, certificati, comprensibili ma non aggiornati. Per cui, in questo caso, una macchina, seppur dotata di intelligenza, non può verificare questo fatto, che noi esseri senzienti invece sappiamo essere avvenuto.

Il 7 novembre 2019, a causa delle crescenti minacce e insulti che le sono rivolti attraverso internet, il prefetto di Milano le assegna una scorta.

Anche in questo caso non possiamo verificare i fatti perché non esistono dei dati autorevoli, certificati e comprensibili dalle macchine, provenienti dall’attività della Prefettura, per cui ci dobbiamo fermare.

Fine della storia

Tutto ciò che ho scritto, ed è stato possibile verificare, poteva essere stato scritto autonomamente da una macchina. Così come ho fatto per la storia della senatrice Liliana Segre, perfino un software avrebbe potuto, conoscendo l’ontologia della Shoah, raccontare la biografia di tutti i perseguitati, in maniera automatica, verificabile e senza errori.

Volete una prova?

Quella che vedete è una Web App, raggiungibile a questo link, che sfrutta il Knowledge-Graph del CDEC e che, grazie alle connessioni semantiche, è in grado di interrogare tutto il grafo della conoscenza messo a disposizione dal centro di documentazione ebraica contemporanea. Utilizzando le tecnologie semantiche la Web App è in grado di “raccontare” la storia di donne e uomini che furono perseguitati durante la Shoah italiana. Le parole che vedete in grassetto sono state generate automaticamente grazie ai link semantici esistenti tra tutte le risorse del dominio, definite tramite una grammatica comprensibile dalle macchine.

È un nuovo modo di fare giornalismo? Non saprei. Una cosa è certa. Se tutti i dati delle informazioni fossero pubblicati da organismi autorevoli e certificati secondo le regole del Web Semantico, non solo si riuscirebbe a produrre informazione guidata dai dati ma si consentirebbe alle macchine di verificare in maniera automatica la veridicità delle informazioni, con buona pace dei produttori di fake news. Oggi, come non mai, chi produce fake news distorce la realtà e lucra consenso sull’ignoranza altrui. E oggi, come non mai, non possiamo tollerarlo più.

Una nota a titolo personale adesso.
Questi fatti, insieme a rabbia, sgomento e senso di impotenza, mi hanno scosso non poco. Ho raccontato di vite strappate dalla follia umana, di eventi che mai sarebbero dovuti accadere, di lacrime, sofferenza e dolore. Penso che raccontare sia doveroso e sia lo strumento più potente che abbiamo per non dimenticare. E non essendo né giornalista né scrittore, ho voluto lasciare anch’io, nei modi che conosco e come meglio ho potuto, una traccia di memoria, per non dimenticare ciò che è stato.

Tanti anni fa lessi il diario di una giovane scrittrice olandese. Come Liliana Segre anche lei era di origine ebraica, anche lei deportata. Quella donna si chiamava Etty Hillesum, morì ad Auschwitz e conoscerla mi cambiò la vita.

Se non sapremo offrire al mondo impoverito del dopoguerra nient’altro che i nostri corpi salvati ad ogni costo, e non un nuovo senso delle cose, attinto dai pozzi più profondi della nostra miseria e disperazione –, allora sarà troppo poco. Dai campi stessi dovranno irraggiarsi nuovi pensieri, nuove conoscenze dovranno portar chiarezza oltre i recinti di filo spinato, e congiungersi con quelle che là fuori ci si deve ora conquistare con altrettanta pena, e in circostanze che diventano quasi altrettanto difficili. E forse allora, sulla base di una comune e onesta ricerca di risposte chiarificatrici su questi avvenimenti inspiegabili, la vita sbandata potrà di nuovo fare un cauto passo avanti. […] E convinciamoci che ogni briciola di odio che aggiungiamo al mondo lo rende ancor più inospitale.
(Dal Diario di Etty Hillesum)

Se questo articolo ti è piaciuto mi aiuti a farlo conoscere con un tweet?

Generazione e verifica di notizie di qualità attraverso il Web Semantico: la storia di Liliana Segre

Fondazione Centro di Documentazione Ebraica Contemporanea (CDEC)

Camera dei Deputati

Senato della Repubblica

Written by Giovanni Pirrotta