Oui, les sondages présidentiels sont caviardés

La critique des sondages est en vogue en ce moment, mais elle ressemble généralement moins à une analyse constructive qu’à un cri primal. Cela ne veut pas dire que les sondeurs sont exempts de tout soupçon. Au contraire, il est assez facile de démontrer, chiffres à l’appui, qu’ils ne font pas leur boulot correctement. Sur ce cycle présidentiel, en particulier, les sondeurs sont visiblement coupables de caviarder leurs chiffres.

Quand je dis ‘caviarder’, je ne verse pas dans la théorie du complot. Une pratique courante chez les sondeurs est ce que les anglophones appelleraient le herding. En gros, cela consiste pour des instituts à ne pas publier des sondages ou à ‘réajuster’ leurs chiffres pour éviter d’avoir des résultats trop exotiques. C’est l’équivalent statistique de rentrer dans le rang par peur de passer pour un demeuré.

C’est assez facile à détecter : si les sondeurs donnent peu ou prou les mêmes chiffres, c’est qu’il y a un problème. Et on peut prouver ça mathématiquement !

Explication technique

Vous avez le droit de sauter cette explication si vous êtes mathophobes, mais, normalement, n’importe quel détenteur du Bac peut la comprendre. Il est aussi utile de préciser que je me suis inspiré d’un article du statisticien américain Nate Silver étudiant les sondages d’une élection sénatoriale dans l’Iowa.

Les sondages sont généralement associés à un intervalle de confiance. Cet intervalle correspond au fait qu’on ne mesure pas l’entièreté de la population, et que donc les résultats seront forcément d’une manière ou d’une autre à côté de la plaque. Par exemple, un sondage mesurant des scores autour de 20–25 % et utilisant un échantillon de 1000 personnes a un intervalle de confiance de 2,7 %. Ce qui veut dire qu’on est certain à 95 % que le vrai score mesuré est compris entre 17,3 % et 22,7 % (+/- 2,7 %). Une extension de cette règle fait qu’on est aussi certain à 68% que le vrai score mesuré est compris entre 18,65 et 21,35 (+/- la moitié de 2,7 %, c’est-à-dire 1,35 %).

Ce qui veut dire qu’à long terme, 68 % de tous les sondages réalisés vont être compris dans un intervalle de +/- 1,35 %. C’est mathématiquement inévitable. Si les sondages sont trop en dehors, ou trop à l’intérieur de cet intervalle, ça veut dire qu’il y a un problème avec les méthodes de ces sondages. Encore une fois, si l’on prend 1000 personnes au hasard, et qu’on répète cette méthode de sondages encore et encore, la dispersion des scores trouvés devrait être assez claire et régulière. Par exemple, pour Marine Le Pen, dans un environnement de sondage normal et parfait, si son score réel est de 20%, un échantillon de sondages qui se comporte normalement serait 21, 16.5, 19, 19.5, 19, 21.5, 19, 19.5, 18.5, 18. (J’ai généré cette série sur mon ordinateur.)

La preuve

Intentions de vote pour Marine Le Pen

Voici la courbe d’intentions de vote pour Marine Le Pen entre le 2 décembre et le 14 avril. La ligne au milieu représente la moyenne des intentions de vote, calculée selon la méthode de la régression locale. L’intervalle en rouge représente l’intervalle de confiance dont je parlais dans l’annexe technique. Encore une fois, retenez l’idée que, pour que les sondages soient normaux, il faut qu’il y ait à peu près deux tiers des sondages dans l’intervalle, et un tiers en dehors. C’est assez évident que ça n’est pas le cas, et la réalité est encore pire que ce qui transparait sur le graphique (des sondages avec des scores similaires ont été publiés le même jour, mais ne font qu’un point sur le graphique). Les sondages présidentiels sont beaucoup trop proches les uns des autres, et c’est une aberration statistique.

Intentions de vote pour François Fillon
Intentions de vote pour Emmanuel Macron
Intentions de vote pour Jean-Luc Mélenchon

Mais il y a pire. Vous remarquez que, sur les graphiques, j’ai séparé les sondages en deux périodes : avant et après le 25 février. J’ai choisi la date essentiellement parce qu’elle correspond à des gros changements de scores pour les quatre principaux candidats (juste après les ralliements de Bayrou et Jadot, et avant la mise en examen de Fillon). Ces changements ont été spectaculaires sur les six semaines suivants le 25 février, créant une volatilité jamais vue dans une présidentielle. On serait donc en état d’attendre, après cette date, une déviation des sondages plus importante que d’habitude. En réalité, le contraire s’est produit: les sondages ont été incroyablement, et anormalement, réguliers pendant les six dernières semaines.

Statistiquement, le moyen le plus simple de prouver que c’est anormal est de calculer la probabilité que cela arrive selon le test du χ². Sur les sondages du 25 février au 17 avril :

  • La probabilité que les scores d’Emmanuel Macron aient été aussi réguliers ces six dernières semaines soit dû au hasard est de 0.001 %.
  • La probabilité que les scores de François Fillon aient été aussi réguliers ces six dernières semaines soit dû au hasard est de 0.0003 %.
  • La probabilité que les scores de Jean-Luc Mélenchon aient été aussi réguliers ces six dernières semaines soit dû au hasard est de 0.0006 %.
  • La probabilité que les chiffres de Marine Le Pen aient été aussi réguliers ces six dernières semaines soit dû au hasard est de 0.00000000002 %.

Et ce alors que les sondages pré-25 février étaient relativement plus dispersés (même si ils avaient tendance à rester quand même assez proches de la moyenne : les sondages présidentiels sont en moyenne à moins d’un point d’écart des autres). L’explication de ce changement brusque et anormal est assez simple : les sondeurs répètent ce que disent les autres, et refusent de publier des résultats trop osés. C’est le herding dont je parlais tout à l’heure. Et dans la période d’incertitude sans précédent qu’a été la fin de cette campagne, les sondeurs ont apparemment paniqué, et cette pratique s’est amplifiée.

On peut comprendre ce comportement. Après tout, c’est assez humain de vouloir corriger un peu la copie avant de publier des résultats. Mais pour être tout à fait honnête, ces pratiques sont assez dangereuses pour la démocratie française. Des sondages aussi moutonniers, des résultats bruts qui ne sont pas publiés, des publications qui sont, en essence, trafiquées : tout cela est le signe d’une industrie sondagière de mauvaise qualité. Peut-être que la moyenne des sondages est pertinente, mais, vu qu’apparemment tout le monde copie un peu sur tout le monde, rien n’est moins sûr. Et ce qui en résulte est historiquement assez évident : des énormes surprises le soir du scrutin. Ce qui, pour cette présidentielle, veut dire une chose : attachez vos ceintures dimanche soir, parce que les sondages ne seront probablement pas là pour vous sauver.

Sceptique ? Les données et scripts utilisés pour cet article sont disponibles sur GitHub.

Show your support

Clapping shows how much you appreciated Léopold Mebazaa’s story.