Fantasy-PIL: come Bayes smaschera le previsioni distorte del Governo

Il Ministro Padoan ha dichiarato che le previsioni governative sono migliori di quelle del Fondo Monetario Internazionale:

“Sono stime diverse dalla nostre. Vedremo alla fine chi avrà ragione. Noi sulle previsioni abbiamo un tasso di errore molto basso”

Errore molto basso, dice? Bene, allora vale proprio la pena mostrare, con l’aiuto del reverendo Bayes, come la storia delle previsioni governative sulla crescita del PIL dell’Italia remi focosamente contro le sue parole. E come, per pochi che siano, i dati specifici del Governo Renzi siano ben allineati con quelli dei predecessori. Trovate tutto sul blog AdviseOnly, tranquilli. Qui mi limito a fornire alcuni dettagli metodologici, per offrire la massima chiarezza su quanto fatto e scritto, riviando al già menzionato post per altre considerazioni. Specie quelle relative al valido movente che i governi hanno a mentire, creando previsioni artificialmente ottimistiche.

Per mostrare, dati alla mano, che la probabilità che le stime sulla crescita del PIL siano patologicamente distorte è molto alta viene comoda la statistica Bayesiana.

Parlo di quella branca mai abbastanza apprezzata della statistica che appoggia i piedi, appunto, sul teorema del reverendo Thomas Bayes. La statistica Bayesiana è sì popolare quando si tratta di analizzare Big Data, ma è molto efficace pure quando i dati sono assai meno Big. Per esempio quando si tratta di portare una schiacciante evidenza sulla pessima qualità del servizio Trenitalia. Ma questa è un’altra storia. Concentriamoci ora sul povero PIL italiano.

La domanda è: qual è la probabilità, che chiamerò θ, che un governo in carica distorca ottimisticamente le stime di crescita dell’economia per l’anno successivo (esempio: quelle del 2017 effettuate ad aprile 2016)?

Sono dunque interessato a un parametro, che chiamerò θ, una probabilità. Ossia un grado di fiducia, compreso tra 0 e 100.

Il Teorema di Bayes mi aiuta a stimare il parametro d’interesse. Con onestà intellettuale, senza certezze. Più precisamente mi dà una distribuzione di probabilità per θ, affermando quanto segue:

posterior(θ|dati) ∝ prior(θ) × likelihood(dati|θ)

In parole: la conoscenza finale su θ è la combinazione d’informazioni e/o opinioni iniziali (prior) con l’evidenza empirica raccolta (likelihood). Quindi, parto da un’opinione iniziale, l’aggiorno con l’evidenza empirica, e mi ritrovo infine con una distribuzione di probabilità. Che nel caso specifico descrive il grado di fiducia circa il fatto che il Governo distorca patologicamente le stime del PIL.

Si parte con la prior: una distribuzione di probabilità che rifletta la mia opinione iniziale. Sebbene io ami pensar male dei politici (in generale, visto che ho pulsioni anarchiche controllate), in questo caso opero con prudenza metodologica, nonché con una certa cavalleria, imponendomi di credere che la probabilità che le stime siano patologicamente distorte sia bassa. Insomma, ancora una volta “I want to believe”. Dunque, come prior utilizzo una distribuzione di probabilità Beta (matematicamente assai trattabile in questo contesto, praticamente un agnellino) con parametri a=1.8 e b=7.2. Ovvero, scritto in modo compatto, una Beta(1.8, 7.2), che vede in media un 20% di probabilità che il Governo pieghi alla sua volontà le stime di crescita dell’economia italiana. Traduzione: il taroccamento non si può escludere del tutto, ma è relativamente poco probabile. Ragionevole.

Ora veniamo ai dati: vent’anni di previsioni governative del Ministero dell’Economia (il nome è cambiato nel tempo, ma la sostanza no). I dati si sostanziano — tornate alla formula di cui sopra — nella likelihood, anch’essa di tipo Beta, che oltre ad essere perfetta per modellizzare probabilità o gradi di fiducia, come in questo caso, è simpaticisssima nel semplificare i calcoli. Tecnicamente, infatti, prior e likelihood sono coniugate. In base alla storia delle previsioni governative (per le fonti dei dati, rinvio al post del blog di AdviseOnly) la likelihood è una Beta(12, 4). Ora, il Teorema di Bayes ci dice che la posterior è:

p(previsioni distorte|dati) ∝ Beta(1.8, 7,2) × Beta(12, 4) =

= Beta(13.8, 11.2)

Per capirci, vista la compattezza della formula, la posterior che esprime il mio livello di convinzione circa il fatto che le previsioni siano artatamente massaggiate è rappresentata nel grafico seguente, insieme alla prior e alla likelihood.

La posterior è spostata verso il semiasse di destra: 2/3 della massa di probabilità è oltre il 50%. L’odd ratio, cioè il rapporto:

p(previsioni distorte>50%)/p(previsioni distorte ≤50%)

è 2.4, sicché (con interpretazione da street-fighting statistics) potremmo scommettere sul fatto che il Governo tarocchi le previsioni quotando 2.4 : 1.

Ma attenzione, fino ad ora siamo stati cauti con la prior, al limite del paradosso. Se abbandonassimo la cavalleria e usassimo invece una prior più neutrale, centrata su una probabilità del 50% (siamo al livello “testa o croce”, cioè non sappiamo proprio), le cose peggiorerebbero assai. Sì, perché il risultato sarebbe questo:

La massa di probabilità della gialla posterior è tutta a destra, con un inquietante odd ratio pari a 32, cioè 32 : 1 (è 32 volte più probabile che il Governo tarocchi le previsioni, piuttosto che non lo faccia).

Questo è tutto. La statistica Bayesiana non dà certezze, ma fornisce prove indiziarie schiaccianti, caro Ministro Padoan: e la storia, per ora, non l’aiuta.

In data we trust.