Sondaggi sul referendum costituzionale: cosa ci dicono veramente?

Parte 2: costruire una linea di tendenza con simulazioni Monte Carlo

7 min readSep 24, 2016

Nella parte uno di questa serie di articoli sull’analisi dei sondaggi sul referendum costituzionale, ho segnalato l’importanza di combinare i risultati di tutti i sondaggi disponibili, e mostrato come un’appropriata media pesata fornisca come risultato, ad oggi, un perfetto equilibrio tra sì e no.

In questa seconda parte utilizzo invece un’altra metodologia, basata su questo articolo di Simon Jackman, in cui sono analizzati i risultati delle elezioni australiane, e adottata diffusamente, ad esempio dall’Huffington Post statunitense o dal sito http://electionforecast.co.uk/ dedicato a predire il risultato delle elezioni inglesi. Il metodo di Jackman sfrutta la statistica bayesiana per ricostruire l’evoluzione dell’opinione pubblica durante tutta la campagna elettorale fino ad ora (permettendo quindi di individuare momenti in cui ci sono state decisi cambiamenti di tendenza). Le intenzioni di voto per ciascun giorno della campagna referendaria sono modellizzate come quelle del giorno precedente più una variazione casuale, che ha media zero ed una certa deviazione standard ω (2ω rappresenta, circa, quanto al massimo possono variare i sostenitori di una delle due fazioni da un giorno a quello successivo, nel 95% dei casi). Questo tipo di processo stocastico, uno dei più semplici possibili, è chiamato random walk.

L’obiettivo è ottenere una distribuzione di probabilità “a posteriori” per i risultati del referendum per ogni giorno, e una distribuzione per il valore di ω, fornendo in input al modello una distribuzione “a priori” per le intenzioni di voto al primo giorno e per ω, e una “funzione di verosimiglianza”, che dà la probabilità di ottenere il risultato osservato in un sondaggio, dato il “vero” risultato di un’elezione se si fosse tenuta quel giorno.
La procedura assomiglia ad un filtro Kalman, che permette di ricostruire una traiettoria (la linea di tendenza) combinando misurazioni rumorose (i sondaggi) con un modello a priori del loro comportamento da un giorno all’altro (random walk).
Le distribuzioni a posteriori, in pratica, sono ottenute con simulazioni Markov Chain Monte Carlo (almeno 100000 campioni), realizzate con la libreria Python PyMC.

Il metodo Jackman ha il vantaggio di poter immediatamente estrapolare una previsione per il risultato alla data del voto, calcolando la probabilità di vittoria della fazione in vantaggio, dato che si ha a disposizione l’intera distribuzione di probabilità dei risultati. Altro vantaggio è la possibilità di tenere in considerazione il cosiddetto “house effect”, ovvero la possibilità che i sondaggi eseguiti da una particolare agenzia siano sistematicamente più favorevoli ad un particolare risultato, rispetto alla reale opinione dei cittadini.

Il problema principale che ho riscontrato in questa metodologia, e che non ho visto citato dai suoi numerosi utilizzatori, è l’errore sistematico legato alla scelta della distribuzione a priori di ω. Due soluzioni radicalmente opposte sono adottabili: utilizzare un cosiddetto uninformed prior, cioè una distribuzione di probabilità che non introduca ulteriori informazioni (e quindi errori sistematici), lasciando la simulazione libera di stimare la varianza del random walk. In particolare, conviene utilizzare una distribuzione “Half Cauchy”, come suggerito in questo articolo. Essendo realizzati relativamente pochi sondaggi in Italia, questa scelta porta a sovrastimare ω, ottenendo una linea di tendenza che cerca di “collegare i puntini” tra i vari risultati dei sondaggi, filtrando poco quelli che appaiono molto distanti dagli altri. Il risultato finale per la probabilità di vittoria, però, è stimato in maniera più conservativa in questo modo, perché l’errore sulla percentuale di sostenitori del sì e del no risulta più alto. Il risultato è riassunto dal seguente grafico (limitato alla data di oggi):

Frazione di sostenitori del sì, in funzione del tempo, con uninformed prior per omega.

Il grafico mostra la percentuale di sostegno al sì. I punti rossi rappresentano i risultati dei sondaggi. Le linee rosse verticali segnano l’inizio di ciascun mese (maggio, giugno, luglio, agosto e settembre). La linea di tendenza blu rappresenta la media della distribuzione a posteriori ottenuta. La banda verde comprende il 68% dei casi, quella gialla il 95%. Con questa scelta per omega, si ottengono, in particolare:

Media ω: 1.99%

Probabilità di vittoria del no ad oggi: 64.7%

Probabilità di vittoria del no al 4 dicembre: 52.0%

La probabilità di vittoria del no è corretta con un termine proporzionale alla media degli indecisi, presa dalla media pesata dell’articolo precendente (36.5%). Questa correzione fa diminuire la probabilità di vittoria, di un massimo del 10% (seguendo quanto applicato da Huffington Post).

La seconda soluzione (universalmente adottata in pratica) è scegliere a priori un intervallo credibile per la variazione dell’opinione da un giorno al successivo, anche se questa scelta modificherà il risultato delle simulazioni. La scelta effettuata da Jackman è ω ∈ [0, 1]% uniforme, mentre la scelta dell’Huffington Post per le elezioni USA 2016 è ω ∈[0, 0.75]%, sempre uniforme. In pratica ho testato la prima possibilità. Il grafico risultante è il seguente:

Frazione di sostenitori del sì, in funzione del tempo, con prior uniforme per omega.

In questo caso, i parametri ottenuti sono:

Media ω: 0.93%

Probabilità di vittoria del no ad oggi: 72.8%

Probabilità di vittoria del no al 4 dicembre: 57.3%

Questa seconda scelta permette un filtraggio molto maggiore dei sondaggi che si discostano parecchio dagli altri (quelli fuori dalla banda gialla), fornendo una linea di tendenza interpretabile più facilmente in base agli avvenimenti nello scenario politico italiano. Tuttavia, la probabilità di vittoria del no se si tenesse oggi il referendum è sovrastimata (non per colpa della metodologia in sé, ma per la scarsità di sondaggi. In particolare, gli ultimi due sondaggi, che fanno spostare la linea di tendenza di molto a favore del no, sono stati effettuati dalla stessa azienda specializzata).

Osservando la linea di tendenza di quest’ultimo grafico, si notano chiaramente alcune interpretazioni interessanti: il sì ha rapidamente guadagnato vantaggio dopo l’approvazione della riforma, grazie ad un’efficace campagna mediatica che l’ha presentata. Questo vantaggio si è ridotto rapidamente all’iniziare della raccolta firme da parte del Comitato per il NO (il 25 Aprile). Nel mese di Maggio il sì è comunque rimasto in vantaggio, ma con l’intensificarsi della campagna di raccolta firme da parte dei comitati del no e dopo il risutato delle amministrative, non favorevole al PD, il no è passato in vantaggio per tutto giugno e la prima parte di luglio. Durante il mese di luglio, a causa di un disimpegno dei sostenitori del no e del fallimento della raccolta firme, il sì ha lentamente ma quasi linearmente nel tempo guadagnato terreno. Molto interessante la considerazione che il mese di Agosto, quasi privo di campagna elettorale, abbia favorito nettamente il no. Evidentemente i sostenitori del sì, a parte lo zoccolo duro che vota come indicato dai vertici PD a priori, hanno bisogno di una continua campagna e di continui stimoli per apparire convinti nella loro scelta di voto. All’inizio di settembre, con la ripresa delle campagne elettorali, il sì ha riguadagnato rapidamente il terreno perso, anche grazie alle disavventure del Movimento 5 Stelle a Roma. La tendenza più recente, però, sembra favorire il no. Come ho già fatto notare, essendo gli ultimi sondaggi a favore del no tutti prodotti dalla stessa azienda, questo risultato non va preso troppo sul serio, in attesa di avere un numero maggiore e più diversificato di sondaggi.

Una domanda potrebbe sorgere: perché questa tecnica assegna un’alta probabilità di vittoria al no, mentre la media pesata dei sondaggi dice che la situazione è in equilibrio? Il motivo è che la linea di tendenza non rappresenta una media dei sondaggi disponibili, ma, appunto, la tendenza verso cui gli elettori sembrano muoversi, corretta all’arrivo di ogni nuovo dato disponibile. Dato che i risultati dei sondaggi da inizio settembre sono progressivamente sempre più favorevoli al no, la linea di tendenza assegna a questo risultato una rilevante probabilità di vittoria.

Quindi il no sta vincendo, o la situazione è pari?
La situazione ad oggi è pari, ma il no mostra una tendenza ad aumentare i propri sostenitori. Questo porta ad assegnargli una probabilità di vittoria alla data del voto superiore al 50%. Essendo la data di oggi arbitrariamente distante dall’ultimo sondaggio, non è molto significativa la percentuale di probabilità di vittoria ad oggi stimata con questo secondo metodo (se fossero stati realizzati sondaggi oggi, l’errore sarebbe più piccolo e quindi la probabilità più alta).

È invece significativa (e il dato che forse più interessa conoscere) la probabilità di vittoria alla data del voto. Il no appare avere una probabilità di vittoria distintamente superiore al 50%. Sfortunatamente, dato l’errore sistematico nella scelta della distribuzione a priori per ω, che fa variare di oltre 5 punti la probabilità di vittoria alla data del voto anche solo nei due esempi considerati, non è possibile dare una stima precisa per questo valore, se non affermare che probabilmente è compreso tra il 52% e il 58%.

All’arrivo di nuovi sondaggi, in particolare se ravvicinati tra loro nel tempo (idealmente più di un sondaggio al giorno), le due scelte per ω dovrebbero convergere, dato che il valore stimato dall’uniformed prior (ω = 2%) sembra essere più alto di quanto uno possa ragionevolmente aspettarsi (un guadagno o perdita di 4 punti rispetto all’avversario in un solo giorno, possibile ben nel 30% dei casi circa, sembra essere irrealistico).