Sondaggi sul referendum costituzionale: cosa ci dicono veramente?

Parte 1: costruire una media dei dati disponibili

5 min readSep 22, 2016

Come per ogni votazione nella moderna era delle comunicazioni di massa, anche per il prossimo referendum costituzionale italiano già da mesi impazzano i risultati dei sondaggi, sbandierati come segno di sicuro successo dall’una o l’altra parte (Brunetta sta basando su questo la propria intera campagna) e usati dai giornalisti per riempire le proprie prime pagine, spesso senza sapere (o, facendo finta di non sapere) che un singolo sondaggio, anche se è il più recente disponibile, è ben poco affidabile. Da tempo sto accumulando dati sui sondaggi e studiando le metodologie statistiche più diffuse per trarne informazioni affidabili. Questo tweet di Nate Silver, responsabile del sito http://fivethirtyeight.com/ (uno dei più noti e quotati siti di analisi statistica per predire risultati elettorali ma anche di eventi sportivi negli Stati Uniti), mi ha convinto definitivamente a scrivere qualcosa in proposito:

Il succo della questione è che un signolo sondaggio in cui sono intervistate 1000 persone, ha un errore statistico, supponendo una distribuzione gaussiana per le preferenze di ciascuna delle due fazioni, di circa il 3% . Ma questa non è la fine della storia, perché il campione, per quanto ben costruito, non sarà mai completamente “casuale”, inducendo dei “bias”, che sono difficilmente quantificabili osservando un signolo sondaggio. Per questo, l’unica soluzione per avere risultati affidabili è costruire una media dei sondaggi disponibili. È anche importante non ignorare i risultati dei sondaggi più vecchi, ma considerare tutti quelli a disposizione, dall’approvazione finale al Senato della riforma costituzionale, affidando però un peso superiore, nella procedura di media, ai sondaggi più recenti.
Due possibili tecniche per trarre informazioni considerando tutti i sondaggi a disposizione, tra le più note e diffuse, sono:

Quella del sito http://fivethirtyeight.com già citato, che permette di ottenere uno spaccato di come gli italiani voterebbero se il referendum si tenesse oggi, con un’operazione di media pesata tra i sondaggi che tiene in maggior considerazione i sondaggi più recenti (e la penalizzazione dei sondaggi vecchi aumenta avvicinandosi alla data del voto, che ho stimato in questo esempio al 4 dicembre) e pesa di più i sondaggi con un campione maggiore (quindi più affidabili, con un errore statistico minore). La procedura originale, un po’ più sofisticata di quella che ho utilizzato, la trovate a questo link. Questa stessa tecnica, con parametri leggermente diversi, è stata recentemente utilizzata qui per analizzare i sondaggi delle elezioni comunali romane.
Quella dell’Huffington post statunitense, basata su un articolo di Simon Jackman del 2005. Dedicherò a breve un secondo articolo a questa metodologia.

In questo post mi concentro solo sulla prima, per non essere troppo prolisso.

I dati dei sondaggi sono presi da www.sondaggipoliticoelettorali.it, con grande fatica, perché il Governo italiano non li mette a disposizione in un formato unico facilmente scaricabile da una procedura automatizzata.

In tutto sono disponibili 45 sondaggi dall’approvazione definitiva della riforma ad oggi, ma tre di essi (realizzati da Eumetra per il Giornale) sono stati scartati perché assegnavano al No un vantaggio totalmente irrealistico, decisamente “di parte”, rispetto a quanto mostrato da tutte le altre agenzie sondaggistiche.

Il risultato con la procedura di media pesata mostra:

SÌ —-> 49.9%

NO — -> 50.1%

Votanti — -> 56.8%

Indecisi — -> 36.4%

Il NO appare dunque avere un leggerissimo vantaggio. Purtroppo, questo risultato, di per sé, non è molto significativo, perché manca una stima del suo errore. La stima basata sul solo errore satistico dovuto alla dimensione limitata del campione è di

Err — -> 0.5%

Ma questo valore è molto probabilmente sottostimato, dato che l’errore di come è composto il campione domina quello della sua dimensione, dopo l’operazione di media. A questo proposito, è interessante leggere un recente articolo del New York Times, che mostra come, a partire dalle stesse interviste, diverse agenzie sondaggistiche forniscano un risultato diverso, a causa di come compongono il campione finale e ne pesano le diverse componenti. L’unico modo per stimare efficacemente questo tipo di errore è basarsi sulla performance della procedura di media pesata in elezioni passate di cui si conosce già il risultato (e, preferibilmente, in cui le case sondaggistiche siano più o meno le stesse e la situazione politico/sociale non sia molto cambiata. Sul secondo punto, purtroppo, abbiamo problemi in Italia, essendo lo scenario politico radicalmente mutato dalle elezioni del 2013 in poi, con la fine del bipolarismo e la forte virata verso destra del PD). Data la difficoltà di ottenere i dati dei sondaggi passati, per ora mi sono limitato a considerare il primo turno delle elezioni comunali dello scorso 5 Giugno (a Roma, Napoli, Milano, Torino e Bologna) e le Europee 2014, guardando l’errore nella previsione del risultato finale del PD (i cui elettori costituiscono la maggior parte dei sostenitori del Sì). Da questi dati, attraverso simulazioni Monte Carlo è possibile calcolare la distribuzione a posteriori dell’errore sulla media dei sondaggi, e da questa, la probabilità di vittoria della fazione che appare in vantaggio, se si tenessero oggi le elezioni (si potrebbe prevedere anche la probabilità di vittoria alla data del voto, ma i dati delle elezioni comunali non sono ideali per farlo, perché sono stati effettuati sondaggi a partire da una distanza molto più ridotta dalla data del voto che nel caso del referendum costituzionale, complice il continuo reinvio della data del voto di quest’ultimo, ancora non nota. Per approfondire, rimando nuovamente ad un prossimo articolo dedicato ai dettagli tecnici della metodologia utilizzata.).

Errore medio dai dati storici— -> 2.6%

Deviazione standard della distribuzione dell’errore storico — -> 1%

Probabilità di vittoria del no— -> 50.1%

Dunque, considerando correttamente l’errore sui sondaggi e la loro media, ad oggi le due fazioni hanno esattamente la stessa probabilità di vincere il referendum costituzionale.

Un dato molto interessante è anche quello dei votanti stimati e degli indecisi. Sono ottenuti con la stessa procedura di media pesata, ma nel caso degli indecisi viene assegnato un peso maggiore ai sondaggi più recenti, dato che dovrebbe avere una stretta correlazione con la vicinanza alla data del voto. Data la situazione di equilibrio, gli indecisi sono “il partito di maggioranza”, e convincere loro sarà molto più importante, per le campagne referendarie delle due fazioni, rispetto a cercare di far cambiare idea a chi oggi è convinto di votare per la parte avversaria.

La stima dei votanti, visti i precedenti recenti, è sorprendentemente buona, consideranto anche che mancano ancora almeno due mesi al voto. Il valore è solo leggermente inferiore alle europee 2014 (ultima consultazione nazionale, 58.69%) e superiore alla maggior parte delle comunali 2016 e regionali 2015. Contrariamente ai timori iniziali, il tema della Costituzione e le sue modifiche sembra essere ritenuto importante dagli italiani.

ERRATA: La probabilità di vittoria del no era calcolata erroneamente. Il risultato corretto è 50.1% e non 50.001%. Anche l’errore calcolato dai dati storici sulla media dei sondaggi aveva un errore, non tenendo conto propriamente delle Europee 2014. Il nuovo risultato è 2.6% (invece di 1.7%), con una deviazione standard di 1% (invece di 0.6%).