Twitter Streams

Narrative dal mondo dei Data Scientist


I worker lavorano a pieno ritmo, si danno da fare mattina e sera, infaticabili, per attingere ai tweet che arrivano senza sosta, anche in piena notte, quando qui si dorme, ma altrove qualcuno è ancora sveglio ad alimentare lo stream di Twitter. Sono i nostri lavoratori software. Nessuna tutela sindacale per loro. Sono solo dello stupido codice programmato dagli umani, che ora invece riposano.

Stiamo tarando il canale di approvvigionamento dati, lo stiamo bilanciando con una raffinata tecnica per approssimazioni successive, che aggiunge e toglie, secondo quel che serve. Ora siamo pronti per gli analytics, le ricette magiche che tirano fuori la polpa dai dati grezzi, la materia preziosa che poi sarà la base del banchetto per tutti i cari amici giornalisti come Gianni, che condiranno i loro pezzi per riviste e web. Ma qualcosa è andato storto nel processo, abbiamo perso qualche centinaio di migliaia di tweet su quella “bag of words”, il cesto delle parole chiave, quelle che stabiliscono di chi si parla, una cosa importante. I dati sono tanti, sono Big, ma basteranno per non concedere al rumore, sempre in agguato, di sopprimere il prezioso segnale?

Mettiamo in piedi una batteria d’emergenza per recuperare tweet con la procedura di search, che faticosamente risale la corrente di Twitter a ritroso, come salmoni assetati di acqua pulita, piena di dati freschi, buoni per le nostre statistiche. Ma caviamo poco. Tocca affidarsi a metodi statistici di ordine superiore, magari a qualche distribuzione multi-variata, per far emergere quegli hashtag che sono ampiamente sotto stimati. Nel mentre mandiamo a Gianni una preview dell’ “hashtag cloud”, sorta di rappresentazione grafica delle parole più gettonate, grandi in proporzione alla loro frequenza, perché possa cominciare a orientarsi, a trovare la strada giusta per la sua narrativa. Crediamo nel nostro lavoro, che ogni singolo passaggio algoritmico possa essere rilevante per estrarre le informazioni che contano, il succo della storia, affogata in questo mare di dati.

Passiamo l’intera notte a mettere a punto il modello statistico. All’alba abbiamo pronto il fattore di correzione che rimetterà tutte le cose a posto. Ma mentre prepariamo trionfanti l’email col link alla nuova elaborazione ci arriva il pezzo di Gianni, fresco e profumato come le paste dopo la discoteca di un tempo. Quel maledetto hashtag “#SAYNOTORACISM” che sapevamo essere la chiave, che sapevamo essere troppo sotto stimato, lui l’aveva visto anche se era piccolo, troppo piccolo per il nostro miope punto di vista, ma abbastanza grande per lui, per incastrarlo nella sua storia, per farlo emergere dallo sfondo. E che storia ha imbastito anche con gli altri hashtag, che neanche avevamo preso in considerazione!

Le narrative dalle grandi masse di dati hanno a volte dei percorsi tortuosi e inaspettati. Nascono da eventi imprevedibili, i cosiddetti outlier della statistica. Anzi è proprio in questi che molto spesso si incarna una storia interessante. La scintilla parte da un effetto spurio o da un difetto della struttura, da qualcosa che è celato nel sottofondo aleatorio di tutti gli eventi possibili, e che solo il vero narratore è capace di illuminare col suo sguardo indagatore.

Lo storyteller si alimenta delle irregolarità matematiche, che segnalano rigorosamente anomalie e paradossi, ma che nella vita reale hanno significati più sfumati: vittoria o sconfitta, torto o ragione, il bene o il male. Matematica che si fa etica. È il meccanismo del ‘legal drama’ americano, come acutamente osservano Aldo Grasso e Cecilia Penati (http://lettura.corriere.it/la-rivincita-della-moglie/):

“Quanto più le leggi, nella loro formulazione, sono rigide e complete tanto peggio è per l’interprete. Precludono la sua attività di narratore e racchiudono tutti i rapporti umani in una rete immobile, inscalfibile. Invece, quanto più le leggi sono imperfette, tanto più consentono al narratore un’interpretazione mutante, secondo il mutarsi dei rapporti sociali. Il paradosso del legal drama sta proprio qui: solo la cattiva scrittura di una legge può diventare buona scrittura drammaturgica, solo la costruzione imperfetta dell’impianto giuridico diventa perfetto impianto narrativo.”

È chiaro che per Gianni la storia era già lì, uno degli innumerevoli percorsi possibili, già visibile nella nuvola indeterminata delle relazioni semantiche, ben oltre il caso e il rumore di fondo.

C’è sempre una storia più grande, dove tutte le parole si incastrano come in un puzzle e dove anche la parola più sperduta trova la sua naturale collocazione. Ci rimarrà sempre oscura la trama segreta delle storie che corrono disordinate sulla Rete. Solo Gianni e quelli come lui sanno guardare oltre e rivelare i segreti che vivono dentro i dati.