L’Italia delle slot. Ovvero: di Foia, pdf, database e inchieste collettive

Un punto fermo: mettere a disposizione di tutti i dati sulle slot machine. Dati difficili da ottenere (è servito il Foia e non è bastato per averli in formato accessibile) e difficili anche da leggere. Metterli a disposizione dei cittadini, ma anche delle amministrazioni locali, dei giornalisti. Il risultato è una sorta di Google delle slot. Un motore di ricerca con — apparentemente — una sola domanda: Quanto si gioca nel tuo comune? La risposta è un mondo disarmante.

La pagina principale dell’Italia delle slot

“L’Italia delle slot” è nato così. Con quel punto fermo e quella domanda a cui trovare una risposta. Ecco il link.

Di cosa stiamo parlando

“L’Italia delle slot” è un’inchiesta giornalistica a più voci, è un database interrogabile. È un lavoro di datajournalism.

La pagina principale è il motore di ricerca più semplice. Per ogni comune italiano ci sono i dati su quanti soldi vengono infilati nelle macchinette ogni anno e su quanti sono gli apparecchi installati. I dati sono messi in relazione a popolazione e reddito, con la possibilità di confrontare il 2015 e il 2016. La grafica (realizzata da Giacomo De Panfilis) richiama l’ambiente delle slot machine: il nero, il fucsia, il rullo con i numeri, le icone delle sezioni.

Le ciliegie sono usate come indicatore di virtuosità

Anche le ciliegie, usate come indicatore di virtuosità, seguono questa stessa linea. Che richiama il punto fermo da cui siamo partiti: realizzare un prodotto a disposizione di tutti, non solo per la possibilità di consultare i dati, ma anche per la sua immediatezza.

Passato il momento curiosità, o l’interesse mirato per i dati del singolo comune, “L’Italia delle slot” va navigato con calma. Si possono, per esempio, mettere a confronto due comuni. Poi c’è la sezione dedicata alle classifiche nazionali e, in un crescendo di complessità, l’analisi dei dati con il rapporto tra reddito e giocate pro capite, e tra apparecchi e giocate complessive. Da leggere con attenzione ci sono le inchieste: una per ciascun quotidiano locale e l’approfondimento nazionale.

E qui serve un passo indietro.

Chi ha lavorato all’Italia delle slot?

Partiamo da un elenco:

  1. I giornali locali del Gruppo Gedi (Tirreno, Messaggero Veneto, Piccolo, Gazzetta di Mantova, Mattino di Padova, Provincia Pavese, Tribuna di Treviso, Nuova Venezia, Gazzetta di Reggio, Gazzetta di Modena, Nuova Ferrara, Corriere delle Alpi, Sentinella del Canavese)
  2. La redazione Agl, l’Agenzia dei quotidiani locali
  3. Il Visual Lab
  4. Dataninja ed Effecinque

I quotidiani locali da anni si occupano di slot e ludopatia. La spinta a proseguire nel tempo, con costanza e con un crescendo di complessità è del direttore editoriale dei quotidiani locali, Roberto Bernabò. Nel 2015, in collaborazione con Dataninja, era uscita un’inchiesta collettiva con i dati sugli esercizi commerciali autorizzati a installare macchinette. Era una prima fotografia del nostro Paese. Ancora prima (era il 2014) il Tirreno aveva lanciato “Toscana No Slot”: un approfondimento realizzato, anche in questo caso, in collaborazione con parte del team di Dataninja. Lo scopo era analizzare la concentrazione delle macchinette. Il tema è caro ai quotidiani locali e anche a Dataninja (qui le puntate su Wired e Secolo XIX, risaliamo fino al 2013), questo è chiaro. Ed è un tema caro perché quello delle slot è diventato un fenomeno inarrestabile, la ludopatia è un allarme sociale non è solo più il disagio di pochi, ma è un tema caro anche perché si inizia a legiferare in materia. Ed è così che chi quasi ogni giorno si trova a scrivere di slot ha iniziato a sentire forte la necessità di affiancare alle storie e alla cronaca i dati.

L’elaborazione dei dati per “L’Italia delle slot” è stata affidata a Dataninja, Effecinque e al VisualLab, che ha curato anche la grafica. Il coinvolgimento del Lab del Gruppo Gedi ha consentito di realizzare un prodotto con un complesso lavoro di sviluppo per rendere il database interrogabile (Daniele Testa, sviluppatore del Lab, ci ha passato giorni interi).

Come si lavora in contemporanea su 13 testate

Una delle cose belle dei quotidiani locali del Gruppo Gedi è la capacità di lavorare insieme anche a chilometri di distanza. Con il coordinamento della redazione centrale dell’Agl le 13 testate (dal Tirreno al Messaggero Veneto, dalla Provincia Pavese alla Gazzetta di Modena) hanno lavorato ciascuna a un approfondimento locale partendo da report mirati su base regionale e provinciale. L’idea è stata questa: diamo alle redazioni una elaborazione dei dati, con qualche osservazione per avere spunti da cui partire. Non serve rifare il lavoro di analisi, nemmeno occuparsi delle visualizzazioni che possono essere realizzate a livello centrale. Serve invece andare a cercare le risposte a quello che i numeri, da soli, non dicono. E così è stato. In contemporanea sull’edizione cartacea e su quella online sono usciti 13 longform che si possono leggere qui.

Le 13 inchieste locali e gli approfondimenti nazionali

Come sono stati ottenuti i dati

Raffaele Mastrolonardo — Dataninja — ha conservato le due lettere dell’Agenzia dei Monopoli. Le ha mostrate durante la conferenza stampa di presentazione del progetto alla Camera. L’oggetto è lo stesso: è la richiesta per l’accesso ai dati sulle slot in Italia. La risposta dell’Agenzia però è diversa. La prima lettera ha ricevuto n rifiuto, la seconda un sì. E questo perché Dataninja ha effettuato una richiesta di accesso civico sulla base del Freedom of Information Act (il Foia) che dal 23 dicembre 2016 consente a tutti i cittadini italiani, non solo ai giornalisti , di richiedere alla Pubblica amministrazione atti, dati e documenti pubblici. Bene, quindi. Nì. Come spiegato da Dataninja i documenti sono stati consegnati in formato pdf. Diecimila pagine di tabelle. Sì, proprio diecimila.

La scheda di Caresanablot, il comune con la giocata procapite più alta. Qui tre screenshot di dettaglio

Come sono stati estratti i dati dai pdf

(capitolo a cura di Alessio Cimarelli e Raffaele Mastrolonardo)

Abbiamo affrontato il problema per step successivi, utilizzando diversi strumenti software, alcuni sviluppati ad hoc per questo specifico compito.

  1. Abbiamo suddiviso i file pdf di decine di migliaia di pagine in singoli file da 1.000 pagine l’uno.
  2. Abbiamo estratto le tabelle di ogni file mediante la versione da linea di comando (senza interfaccia grafica) di Tabula, un software sviluppato apposta per estrarre tabelle da file pdf. In questo modo abbiamo ottenuto, per ogni documento pdf due file csv (per i più tecnici: uno con la tabella estratta in modalità “stream”, l’altro con quella in modalità “lattice”).
  3. Abbiamo concatenato i file csv risultanti per ricomporre la tabella completa (sempre in modalità stream e lattice).
  4. Abbiamo scritto uno script utilizzando il linguaggio di programmazione Python per riconciliare i dati nei due file csv (stream e lattice) e produrre la tabella finale.
  5. Abbiamo ripulito la tabella mediante OpenRefine, un software open source per la pulizia dei dati aggiungendo anche i codici Istat alle informazioni geografiche (comune, provincia, città metropolitana, regione) attraverso i dataset ufficiali Istat.
  6. Abbiamo verificato la coerenza interna dei dati (es. righe spostate di una colonna, campi spezzati su più righe, celle vuote) e corretto gli ultimi errori mediante LibreOffice Calc.
  7. Abbiamo verificato la correttezza dei dati estratti con controlli a campione (confronto tra tabella e pdf originale) e confrontando i conteggi a livello di comune, provincia e regione ottenuti dalla tabella con quelli ufficiali Aams.

Ps: il proposito per il 2018 è tenere aggiornato L’Italia delle slot. Dunque #staytuned

One clap, two clap, three clap, forty?

By clapping more or less, you can signal to us which stories really stand out.