9 cose che ho imparato dalla mia prima raccolta ed elaborazione dati.

Nessuna velleità di interpretazione dei dati collezionati o di previsioni. Solo dati sul COVID-19 in Italia.

7 min readMar 17, 2020

Non sono un analista, non sono un esperto di data visualisation, né un matematico o un esperto di statistica. Non sono un drago di Excel, e la mia matematica si ferma a poco più di 5 anni di ragioneria.

Sono un semplice designer, che in questo periodo abbastanza particolare, ha cercato ogni scusa per combattere l’ansia e la noia. Una di queste è stata avventurarmi per la mia prima volta con la raccolta ed elaborazione dati. Nessuna velleità di interpretazione dei dati raccolti o di previsioni.

I dati del momento, nemmeno a dirlo, sono quelli che arrivano ogni sera alle 18:00 tramite la Protezione Civile sull’epidemia di COVID-19 in Italia, reperibili facilmente su salute.gov.it.

Bollettino diffuso dalla Protezione Civile il 16 Marzo.

Come si evince il bollettino fornisce dei numeri chiari sulla giornata, ma non ci dice molto su come stia andando l’epidemia. Gli sforzi che stiamo facendo stanno dando risultati? Quando arriveranno? Chi sta vincendo? Il famoso picco quando arriverà?

Come detto sopra non sono un analista e non ho certamente queste risposte, ma un semplice incrocio di dati e qualche grafico possono aiutarci nelle domande più semplici: i nuovi casi sono più dei giorni precedenti? E se sono di più, vuol dire che l’epidemia si sta propagando più di ieri? Quali sono le regioni dove si sta espandendo?

Sul www oltre ai classici dati di OpenData, non ho trovato molto. Ho trovato gruppi Facebook interessanti, ma nulla di più istituzionale a livello italiano come ad esempio ha fatto ElPais in questo speciale. Motivo in più per sperimentare un po’.

Trovate i miei sforzi di raccolta su questo Google Spreadsheet: https://docs.google.com/spreadsheets/d/1vuRLp07iRVCzk9sJGGOjA_FWGuTH2m1RVztzX7jJg0s/edit?usp=sharing

E adesso, in ordine cronologico di epifanie, qualche considerazione su quello che ho imparato sulla mia pelle.

1. Da cosa nasce cosa.

I dati a disposizione sono i soliti, ma basta mettere “più a distanza il foglio dal naso” per provare ad incrociarne di differenti.
Raccogliendo i dati giornalmente, l’elemento in più che abbiamo a disposizione rispetto all’istantanea del singolo bollettino è il tempo.

Il primo dato che possiamo calcolare facilmente è il famoso indice di diffusione del virus, a cui si fa spesso riferimento sul web.
Il concetto è semplice: si dice che senza adeguati provvedimenti, ogni 3 giorni i casi positivi raddoppino o peggio.
Il calcolo del moltiplicatore sarà quindi presto fatto (valore attuale / valore di 3 giorni prima = colonna “X3d”), sia per l’Italia che per le singole regioni.
Più questo valore tende ad 1, minore è la diffusione l’epidemia nella zona:

2. Una rondine non fa primavera.

È banale lo so…
Era il 10 marzo sera, bollettino appena arrivato, spreadsheet riempito, i nuovi positivi erano sensibilmente inferiori al giorno precedente! Evviva! Finalmente un primo segnale di recupero!

Ecco questa è la differenza da un analista serio e un principiante come me: dare valenza e significato ad un SINGOLO dato. Soprattutto se è quello che speri.

È una lezione banale, ma prima o poi ci dovevo battere la testa. Sappiamo tutti che non era il momento dell’inversione di tendenza. Il dato era fallace del fatto che il conteggio in Lombardia (regione più colpita) era parziale.

3. Dietro la raccolta dati c’è un’emergenza.

Non è cosa da poco. I dati che stiamo analizzando sono relativi ad un evento le cui priorità sono (giustamente) ben altre di fare la conta con calma a fine serata.

Ecco quindi che talvolta i dati di alcune regioni non arrivano, o sono parziali. Questo ovviamente complica l’analisi.

La percentuale di incremento casi rispetto al giorno precedente (“Δ% nuovi”) risulta davvero altalenante, sembrerebbe quasi di avere notizie opposte in maniera quasi alternata.

Per questo motivo se vogliamo individuare un trend dobbiamo necessariamente raggruppare i dati in dei cluster (li ho divisi in tonalità differenti sempre nella colonna “Δ% nuovi”). Dopo di che, nella colonna più a destra, ho eseguito una media dei singoli gruppi e piazzata in concomitanza della data di inizio del cluster. Così facendo possiamo produrre un grafico che NON VUOLE ipotizzare il picco (non credo proprio sia così semplice calcolarlo), ma mostrare un trend:

Anche perché non ho certezza che l’ultimo cluster di dati sia chiuso. Magari l’ultimo dato appartiene ad uno nuovo e non lo sappiamo ancora. Quindi questi raggruppamenti sono comunque teorici, e non affidabili.

4. Non farsi prendere la mano.

La smania di elaborare i dati porta anche in sé il rischio di fare prove che hanno davvero poco senso: avevo ipotizzato la visione grossolana della situazione negli ospedali: % di persone in terapia intensiva sul totale degli ospedalizzati (ricoverati + terapia intensiva).

Ma questa elaborazione non porta alcun valore, perché un incrocio di questo tipo NON può prescindere dai numeri assoluti, anzi potrebbe portare ad interpretazioni pericolose.
Ad esempio, una fascia rossa più sottile, senza mostrare i numeri assoluti, non significa che le cose stiano andando bene, ma al contrario potrebbe voler significare che ci sono sempre più ospedalizzati e un numero fisso di postazioni in terapia intensiva.

5. Paragoni con altre nazioni.

Essendo un fenomeno globale è ovvio che il paragone vada con le altre nazioni, ma i dati da confrontare secondo il mio modesto parere, vanno presi con le dovute precauzioni, in quanto modalità di conteggio, provvedimenti dei singoli stati, e tempistiche sono differenti.

Un esempio su tutti il caso dell’indice di letalità (deceduti su casi totali) che in Italia è sensibilmente più alto degli altri paesi anche a causa di differenti modalità di attribuzione rispetto agli altri stati esteri.

Stessa sorte a mio avviso il paragone tra nazioni in base al numero di “giorni indietro” rispetto ad un’altra nazione. Trovo che sia un metodo molto tangibile per capire effettivamente come alcuni stati siano “in scia”, ma indicano sempre un’istantanea del momento in cui viene fatto il grafico, non la roadmap di come andrà, proprio perché ogni stato applica (o non applica) provvedimenti differenti in contesti differenti.

6. Contesto e analogie

Proprio dal ragionamento sopra ho cercato, all’opposto, di capire quali potessero essere contesti simili con provvedimenti simili. Cosa potrei effettivamente paragonare?

Con a disposizione sempre gli stessi dati, ho cercato ad esempio analogie tra la mia regione (la Toscana) e un’altra che avesse situazioni di contagio precedenti (zona Nord Italia), estensione e abitanti simili (4 milioni circa): il Piemonte. — Toscana in giallo, Piemonte in rosso -

Proprio come raccontato sopra, per quanto ci siano analogie, questi grafici non vogliono significare previsioni, ma semplicemente avvalorare il fatto che cercando analogie e similitudini i dati si rivelano più interessanti.

Semplici sovrapposizioni non bastano ad indicare incidenze o correlazioni. Ricordate Spurious Correlations?

7. Quando guardi a lungo in un abisso, anche l’abisso ti guarda dentro. [cit.]

È così. Siamo tutti coinvolti dall’argomento. Il fatto di avere a che fare con i numeri non toglie l’umanità che ci sta dietro, anzi l’amplifica. È stato davvero immediato empatizzare.

Inevitabilmente mi sono trovato più sensibile. Dal piangere a dirotto di fronte al video dei necrologi di Bergamo venerdì scorso, a pensare spesso a come festeggiare quando sarà tutto finito, o a fare gesti di inaspettata bontà che mi chiedo avrei fatto in momenti e contesti differenti.

8. Non è un lavoro che si può improvvisare.

Se c’è una cosa su tutte che ho capito è quella che l’analisi dei dati non è cosa che si possa improvvisare.

In questa piccola esperienza mi sono reso conto che tutti noi abbiamo fame di risposte. “Quando arriverà il picco?”, “Per Pasqua sarà tutto finito?”, “A quanti contagi arriveremo?”.
Sono domande che non possono avere una risposta con questi soli dati e da parte di persone non professionisti (come me ovviamente). Non possono esistere “secondo me…”, anzi trovo che sarebbe irresponsabile e pericoloso fare previsioni solo analizzando questi dati.

9. L’importanza di uno screen cleaner.

Copiare dei dati in colonna da un pdf a spreadsheet è un uno “sporco” lavoro… e un novellino come me scorre il dito sullo schermo per non perdere il segno di dove è arrivato a copiare.
L’ho lasciato in ufficio. Molto bene. 🙌

Conclusioni

Non si possono dare risposte semplici a problemi complessi, ma i numeri da sempre aiutano a comprendere, a distinguere il segnale dal rumore, ci danno una “visione più grande” che altrimenti non potremmo decodificare. Imparare a leggerli, ci rende consapevoli.

Questo il Google Spreadsheet prodotto: https://docs.google.com/spreadsheets/d/1vuRLp07iRVCzk9sJGGOjA_FWGuTH2m1RVztzX7jJg0s/edit?usp=sharing