350 sondages et quelques observations

Depuis plusieurs mois, NSPPolls rassemble tous les sondages d’intentions de vote pour l’élection présidentielle. Une initiative qui a permis de multiplier les agrégateurs.

Alexandre Léchenet
NSPPolls

--

Au printemps 2021, alors que la campagne était encore loin dans la tête des gens, j’ai commencé à empiler dans une base de données toutes les intentions de vote mesurées par les différents instituts de sondage, inspiré en partie par Polls of Poll – racheté pendant la campagne des élections européennes de 2019 par Politico.

La première partie de la compilation s’est faite en parralèle avec les élections régionales. Près de 100 sondages ont été publiés pendant la campagne, avec plus ou moins de succès, et ils m’ont servi d’échauffement. Pour l’élection présidentielle, on compte aujourd’hui 350 enquêtes, dont 150 « rolling » quotidiens, tous réunis dans un seul fichier. Un fichier qui a créé beaucoup d’opportunités, quelques désagréments et pose des questions sur les communs.

Détil de l’agrégateur réalisé par Reuters

Remettre les chiffres dans leur contexte

Inspiré par la crise sanitaire et ses nombreux tableaux de bord, j’ai vu comment la mise à disposition de données régulières et propres permettait un discours plus éclairé. C’est pourquoi j’ai fait la même chose pour les intentions de vote, avec le plus de précision possible, en calculant les intervalles de confiance, en consignant la taille des échantillons. En ayant sous la main tous ces chiffres dans leur intégralité, pensais-je, on pourrait relativiser les analyses et apporter de la nuance, comparer les échantillons, les méthodes.

Une idée qui a fait long feu : c’est compliqué d’aller à rebours du « complexe médiatico-sondagier » qui veut à tout prix que la dernière enquête sorte du lot, pour garantir les reprises. Quitte à exagérer sur l’écart qui se réduit entre deux candidat·es, ou le fait qu’un·e candidat·e soit « pour la première fois » en mesure de se qualifier, ou alors dans la marge d’erreur.

La donnée crée l’opportunité

Il y a cependant des points positifs, et parmi ceux-ci, le nombre d’agrégateurs qui a explosé dans les médias. Le fichier crée l’opportunité, en France et à l’étranger. On a vu des agrégateurs sur les sites du Figaro, de Contexte, du Télégramme ou du MondeLe HuffPost ou Politico ont également proposé des compilations, avec leurs propres données.

A l’étranger, The Economist, le Financial Times, Reuters, le Guardian, Le Temps, FiveThirtyEight ou encore la BBC ont également créé des visualisations s’appuyant sur les données de NSPPolls. L’auraient-ils fait s’il avait fallu reconstituer le fichier « from scratch » ? Pas sûr.

Manque d’empathie pour le producteur

La maintenance de ce fichier m’a fait découvrir ce que c’était d’être du côté du producteur de données – en tant que « data-journaliste », j’étais plus habitué à les utiliser. Créer un fichier, et un schéma de données, ce n’est pas forcément évident, notamment quand il faut l’améliorer au fil de l’eau.

J’ai choisi dès le départ de ne conserver que les données les plus largement partagées par les instituts, oubliant ainsi la part de sondé·es certain·es de leur choix, la certitude d’aller voter, l’estimation de l’abstention ou d’autres indicateurs intéressants mais pas assez partagés entre les instituts – ou élaborés avec des méthodes différentes. J’ai beaucoup discuté avec quelques réutilisateurs — notamment Yann Guéguan à l’origine du Pollotron de Contexte – pour faire des choix ou améliorations dans la compilation.

Une autre chose qui m’a frappé, c’est le manque d’empathie de certains réutilisateur·ices. On leur propose un contenu gratuit, sans condition et ils trouvent ça normal. Certains espèrent (ou exigent) une rapidité sans faille dans la mise en ligne des chiffres, dans la correction des erreurs et sont assez énervés si ça ne change pas assez vite. Ils oublient rapidement qu’il y a des petites mains qui remplissent les cases d’un tableur (et qui font parfois des erreurs).

Pour un « commun » des sondages

Cette initiative m’a aussi permis de discuter avec des chercheur·ses, des spécialistes de la donnée, d’autres, des graphistes, des journalistes (etc.) et de créer une mini-communauté qui s’interroge sur ce que disent les chiffres et ce qu’ils ne disent pas. Une communauté réactive, qui corrige les erreurs, qui propose des évolutions…

Faut-il pour autant imaginer la compilation de chiffres et leur mise à disposition puisse créer un modèle économique ? Celui-ci serait vite mis à mal par le premier contributeur Wikipedia venu. Un journaliste s’est dit qu’il aurait été intéressant que cette démarche ait été menée par des personnes dans plusieurs rédactions.

Je pense qu’on est encore loin de la production collaborative d’outils ou de bases de données par des journalistes… Alors que le plus important reste l’analyse des données, et non leur compilation. Le fait que je travaille pour un média très éloigné de la question et que je l’alimente sur mon temps libre n’est pas un hasard – vous pouvez d’ailleurs, si vous en avez les moyens, nous aider à couvrir les quelques frais techniques pour la mise en œuvre de ce projet.

Selon certaines personnes avec qui j’ai discuté, la production d’un commun autour des sondages d’intention de vote pourrait aussi être du ressort de l’Etat. Après tout, les sondages sont fortement encadrés pendant les périodes électorales et la Commission des sondages les enregistre, analyse et publie en ligne. Cette commission pourrait également produire un fichier compilant toutes les données, ou imposer aux sondeurs un schéma de données pour la publication des chiffres… Elle a refusé, arguant que ce n’était pas prévu par la loi. On verra ce que ça donne en 2027 !

La suite, pour NSPPolls, c’est déjà les sondages du second tour, s’il y en a un. Et d’autres jeux de données en accès libre, comme par exemple les investitures pour les prochaines élections législatives. Avec sûrement une réflexion sur la valeur ajoutée ou la monétisation de ces bases de données… N’hésitez pas à nous contacter pour discuter (contact@nsppolls.fr ou sur Twitter).

--

--