Bayes-Frecciarossa: 3–0

Frecciarossa è un servizio indegno. E Trenitalia è un abominio, non un’azienda.

Chiunque usi anche solo saltuariamente i treni in Italia in cuor suo lo sa.

Ma ora, andando al di là dell’evidenza aneddotica, schiaccerò Trenitalia con la forza della logica e dei fatti, armato della spada laser del Teorema di Bayes, popolarissimo grazie ai Big Data e a società come Google o Spotify, imperniate sulla Data Science, che ne fanno quindi un uso intensivo.

La statistica Bayesiana non serve solo a venire a capo delle masse di numeri dei Big Data, classificandoli e individuando trend o situazioni particolari. Il Teorema di Bayes è un pilastro della Teoria delle Decisioni, serve nelle aziende, nel mondo scientifico e nella vita. Per questo, nel puro stile del corso di Street-Fighting Statistics di AdviseOnly, faremo un po’ di ginnastica Bayesiana prendendo il treno e scatenando il reverendo Bayes contro Trenitalia. Ciò che segue è tutto vero, nulla è inventato.

Andiamo indietro nel tempo di qualche mese: è gennaio 2015 e voglio fare tabula rasa delle mie cupe opinioni su Trenitalia; per il 2015, l’idea è di costruirle un po’ alla volta, a mente aperta, in base ai viaggi effettuati. Siamo sul terreno di gioco ideale della statistica Bayesiana, frutto della mente del reverendo Thomas Bayes portato a maturazione dal matematico Simon Laplace.

Sono interessato a un parametro, che chiamerò θ: la probabilità che Frecciarossa sia un servizio indegno d’un Paese “Sviluppato”.

Il Teorema di Bayes non dà certezze. Ma mi consente d’ottenere una distribuzione di probabilità per θ, affermando quanto segue:

posterior(θ|dati) ∝ prior(θ) × likelihood(dati|θ)

In parole: la conoscenza finale su θ è la combinazione d’informazioni e/o opinioni iniziali (prior) con l’evidenza empirica raccolta (likelihood). Quindi, parto da un’opinione iniziale, l’aggiorno via via con l’evidenza empirica, e mi ritrovo infine con una distribuzione di probabilità che descrive il grado di fiducia circa il fatto che Frecciarossa sia un pessimo servizio. È ben questa è l’essenza dell’apprendimento, no?

Per prima cosa occorre qualificare un “pessimo servizio”. In Giappone, lo Shinkansen, soprannominato “bullet train”, ha un ritardo medio annuo di 36 secondi. Sic. 36. Secondi. Annui. Ed è arrivato anche a 0.6 secondi nel 2010. In Svizzera un ritardo di 3 minuti è considerato scandaloso. In Europa, Germania e Paesi del Nord inclusi, un ritardo accettabile è 5'-10'.

Ora, possiamo ipotizzare che un servizio ferroviario ad alta velocità con oltre 20 minuti di ritardo sia da ritenere pessimo? Direi proprio di sì. Quindi:

θ = Prob(il servizio è pessimo) = Prob(ritardo > 20')

A questo punto c’è bisogno d’una prior: una distribuzione di probabilità che rifletta la mia opinione iniziale. Penso in cuor mio che Frecciarossa sia gestita da farabutti di prima classe, ma, violentando me stesso, ipotizzo di non avere opinioni. Notate che, per dare un vantaggio a Trenitalia (sono uno stagionato agonista e conosco il valore della sportività), mi concentro sul suo servizio di punta: Frecciarossa. Considerare i treni regionali sarebbe come sparare su passerotti caduti dal nido. Dunque, come prior utilizzo una distribuzione di probabilità Beta con parametri a=1 e b=1. La Beta(1,1) è piatta, perfetta per incarnare la mia opinione neutra sulla probabilità che Frecciarossa faccia schifo: con questa prior “ignorante” (tecnicamente, è una prior non-informativa) ogni valore ammissibile per una probabilità – compresa tra 0 e 1, estremi inclusi – è ugualmente probabile. Ha quest’aspetto:

Poi, come un Candido di Voltaire, prendo fiducioso il primo Frecciarossa del 2015. I want to believe, come direbbe Fox Moulder.

Inizio così ad osservare la cruda realtà. E incappo subito in un epico ritardo di oltre 2 ore sulla tratta Milano-Torino. Tralascio le patetiche e ignobili giustificazioni addotte, legate al mezzo dito di neve caduto il giorno prima (ndr: ci troviamo a gennaio, in piena pianura padana, sotto l’arco alpino - perciò la neve non è esattamente un “cigno nero” – la mattinata è peraltro limpida e soleggiata). Tralascio la rissa mancata d’un soffio con il personale a terra che non dà assistenza; focalizziamoci sulle probabilità.

Ipotizzando una likelihood anch’essa di tipo Beta, entriamo nel fantastico mondo delle prior e delle likelihood che stanno talmente bene assieme da essere coniugate: hanno una forma così compatibile che i calcoli si semplificano e si dicono coniugate. La likelihood Beta funziona in modo più semplice d’un forno a microonde: è una Beta(K, N-K), dove K è il numero di volte in cui accade l’evento e N è il totale delle osservazioni. Dato che per ora ho un campione N=1, e che si è verificato l’evento “il ritardo supera i 20'”, la likelihood è una Beta(1,0). Il Teorema di Bayes (i calcoli in questo caso sono una fesseria, si fanno in un attimo con Excel) ci dice che la posterior è:

p(servizio pessimo|dati) ∝ Beta(1,1) × Beta(1,0) = Beta(2,1)

La posterior dopo il primo viaggio ha questo bel visino, che ci fa capire quanto il Teorema di Bayes propenda subito verso il “pessimo”:

Al ritorno, altri 40' di ritardo. Ma ora la mia prior è l’opinione risultante dal precedente viaggio d’andata, perché il Teorema di Bayes riflette il processo di apprendimento. Utilizzando come prior la precedente posterior, ed effettuando un cosiddetto update Bayesiano, una Beta(2,1), ottengo la nuova posterior:

p(servizio pessimo|dati) ∝ Beta(2,1) × Beta(1,0) = Beta(3,1)

La posterior grida sempre più sanguinosa vendetta contro il management di Trenitalia e la possibilità che Frecciarossa sia un servizio accettabile si va sgretolando come un escremento secco lasciato al vento:

Da allora ho effettuato altri viaggi (14, in totale) con questi trenacci, su varie tratte, in tutte le stagioni. In effetti, Frecciarossa non è sempre stato in ritardo. Ma i ritardi, quando si sono verificati, sono stati spesso epici. Come quelli di 1h:30' all'andata e 40' al ritorno sulla tratta Milano-Bologna. Roba degna di Macondo e dei peggiori incubi da repubblica sudamericana allo sfascio. Passeggeri inclini alla violenza, personale allo sbando, disinformato e abbandonato al linciaggio. La fermata alla stazione Milano Garibaldi cancellata senza avvertire i passeggeri, che solo in base all’iniziativa personale hanno raggiunto un’altra stazione. Se dovessi aggiungere elementi qualitativi all’analisi, il giudizio su Frecciarossa peggiorerebbe ulteriormente. E non di poco.

Ora, applicando il Teorema di Bayes a tutti i ritardi da me sperimentati (non vi tedio con i calcoli, sempre uguali) otteniamo l’attuale posterior, una Beta(11,8):

La media della distribuzione supera il 56%: è la stima centrale della probabilità che Frecciarossa sia un serviziaccio immondo, stando a questa rude analisi. Sicchè, dopo pochi viaggi, il Teorema di Bayes ha schiacciato Frecciarossa per terra, evidenziando come Trenitalia sia un pessimo monopolio incapace di erogare servizi di qualità con un minimo di continuità. E, se esistesse una vera giustizia, il suo management sarebbe dato in pasto a una folla di pendolari inferociti che inneggiano al reverendo Bayes.

PS — Post iniziato per passare il tempo su un Frecciarossa in ritardo e finito (grafici a parte) su un Frecciabianca, anch’esso in ritardo. Che il diavolo si porti via Trenitalia.