Prévisions du premier tour de la primaire, une interprétation des données Google Trends

Le show-down au sommet de la primaire de la droite et du centre se confirme. Quel est le pouls de l’opinion à la veille du 20 novembre 2016, qui seront les finalistes ? Est-il possible d’émettre une prévision pour le résultat du premier tour ? Dans ce dernier post avant le scrutin je fais le tour complet des enseignements sur les tendances et les résultats de mon modèle prévisionniste.

Pour cela, j’emprunte deux analogies scientifiques — désolé de venir ici avec mon background d’ingénieur. Les tendances font penser à de la tectonique des plaques et vouloir approcher le résultat de dimanche s’apprête à une description de l’expérience de physique quantique du fameux chat de Schrödinger.

1. Tectonique des plaques des tendances

Tendances : cusum indexé au 14 octobre des performances individuelles google trends des principaux candidats le 10 novembre
cusum indexé au 14 octobre des performances individuelles google trends des principaux candidats le 19 novembre

Pour l’explication, rappelons que le cusum utilisé est dynamique puisque j’utilise la performance Google Trends cumulée sur la période comme valeur de contrôle individuelle de chaque candidat. Rappelons pour l’interprétation d’un chart cusum, qu’une courbe à pente positive indique une performance supérieure à la valeur de contrôle (et vice-versa). Observez comme les courbes ont évolué depuis dix jours dans le haut du tableau. Le “game changer” de François Fillon depuis le 10 novembre affecte considérablement sa propre courbe mais aussi celles d’Alain Juppé et Nicolas Sarkozy. Le 10–11 novembre s’opère une césure dans la campagne.

Jusqu’au 10 novembre, les courbes semblent varier autour de l’horizontale avec des forces de stabilisation lorsqu’il y a du mouvement. Nous sommes dans un régime où la courbe réagit à des occurrences surtout de type médiatique avec montées jusqu’à un plateau 96 heures après le moment puis redescente ou stabilisation : Google semble être jusque là une simple chambre d’échos. Pour François Fillon nous avons déjà noté sa capacité à capitaliser sur ces événements puisque sa courbe retombe peu.

Le comportement du système change totalement à partir du 10-11 novembre. Nous assistons à un véritable séisme François Fillon. En seulement dix jours il influence négativement les performances totales à la fois de Nicolas Sarkozy et Alain Juppé. Observez la translation de leurs courbes passées vers le haut. De plus il relativise considérablement sa propre performance passée. Observez la descente jusqu’au 10 novembre et l’atténuation de l’amplitude des événements passés. Il n’y a aucune atténuation du mouvement qui ne semble pas vouloir atteindre un plateau mais au contraire semble vouloir s’amplifier de jour en jour. Par analogie à la géologie, les plaques continentales bougent. L’analyse des tendances est donc simple : François Fillon a mis le turbo dans sa dynamique et aucun concurrent ne parvient à temporiser ce mouvement qui s’opère toujours à son amplitude maximum le jour du scrutin.

Cela ouvre-t-il la possibilité d’un soi-disant scénario “landslide” en faveur de François Fillon — une victoire dès le premier tour ?

cusum indexé au 14 octobre des performances google trends dans le bas du tableau le 19 novembre

Rien de bien nouveau dans le bas du tableau par rapport à notre post “J-10". Notons que NKM se bat bien et profite du dernier débat. Les tendances indiquent une surprise possible pour la quatrième place entre Bruno le Maire et NKM.

2. Le pouls de l’opinion sous forme de chat de Schrödinger

Voici les données brutes Google Trends de 7:00 à 22:00 pondérées par le trafic relatif quotidien depuis le 14 octobre, lendemain du premier débat. Les données montrent l’évolution depuis la semaine du 6.10–12.10 avant le premier débat jusqu’à aujourd’hui, semaine après semaine en allant vers l’intérieur du graphe.

données brutes Google Trends

Je suis convaincu que les données brutes sur deux mois avant un scrutin ne représentent qu’approximativement la réalité de l’opinion :

  • observez la performance démesurée de Jean-François Copé.
  • les résultats du premier tour de la présidentielle de 2012 selon Google Trends depuis le 1.2.2012 ou 1.3.2012 auraient pronostiqué Nicolas Sarkozy en tête et un deuxième tour face à … Jean-Luc Mélenchon.

Si bien que j’ai développé ma “Data Driven Story” pour corriger le tir en suivant les enseignements de Nate Silver dans son livre “the signal and the noise”. (plus sur notre méthode ici et les posts précédents). Celle-ci est basée essentiellement sur trois éléments :

  • la sociologie des internautes est présumée autour des 18–24 ans. Je clusterise les candidats dans une catégorie de positionnement pour établir une équivalence avec l’étalon de correction, le premier tour de la présidentielle de 2012. Puis je corrige les données Google Trends en fonction d’études sociologiques du vote de 2012 sur deux configurations : un vote large et un électorat sociologiquement proche du premier tour ou un électorat conservateur des 60 ans et plus.
  • De plus, chaque candidat possède un potentiel de polarisation individuel. La sociologie n’arrive pas à expliquer à elle seule l’écart de Google Trends en 2012. Je présume d’une capacité des candidats à susciter du trafic “touristique” au delà de l’expression d’un interêt et support authentique dans les recherches Google. Pensez par exemple à l’histoire des pains au chocolat de Jean-François Copé. J’ai donc catégorisé les candidats dans des potentiels étalonnés à 2012 entre “très négatif”, “négatif”, “légérement négatif”, “fort” et “très fort”. J’ai tactiquement utilisé les résultats des sondages de la primaire autour de fin octobre pour raffiner la catégorisation. Ici je prends en compte aussi une incertitude sur la catégorisation de Nicolas Sarkozy entre potentiel de polarisation “fort” (comme en 2012) et “très fort”.
  • Je considère la possibilité d’erreurs significatives sur les corrections et la valeur Google Trends elles-même. Ainsi j’étends le modèle et opère 21 000 simulations dites de “Monte-Carlo”. Ceci me permet de nommer un niveau de confiance en comptant le nombre de simulations autour d’une affirmation et donc aussi de parler de robustesse du modèle lorsque qu’une affirmation est visible dans plus de 80% des simulations.

Hélas depuis notre post d’il y a dix jours, le modèle de prévision a perdu en robustesse. Il y a dix jours, je pouvais affirmer avec un niveau de confiance de 82% qu’Alain Juppé pourrait accéder au deuxième tour. Ceci n’est plus le cas.

En l’absence de robustesse du modèle à la veille du premier tour en métropole, je vous propose une considération du scrutin sous la forme d’un chat de Schrödinger comme énoncé en introduction. C’est à dire, un scrutin possédant des issues différentes voire contradictoires à des niveaux de confiance très variables et toutes possibles “avant d’ouvrir la boîte”. L’image que fournit le modèle est en effet très floue et l’issue fluide. Prenons un point de vue de type probabiliste. Les quatre scénarios annoncés ci-après sont compatibles avec les données Google Trends enregistrées et la capacité démontrée de Google Trends de prévoir un scrutin si on accepte ma “data driven story”. Je considère les deux axes principaux suivants pour définir les scénarios du scrutin. Je me refuse à attribuer des pondérations à ces scénarios et à faire des moyennes. Un peu comme pour le chat de Schrödinger, on ne peut pas faire la moyenne entre la vie et la mort. Je décris les scénarios dans l’ordre d’alignement croissant avec le narratif médiatique de la campagne de la primaire.

2.1. Le petit renouveau

La participation est très large et dépasse les attentes les plus hautes des candidats et des sondeurs. La population considère le scrutin de la primaire comme le véritable premier tour de la présidentielle. Le risque de voir un duel Marine Le Pen — Nicolas Sarkozy au deuxième tour est la motivation essentielle du vote des Français. Aussi il semble qu’un enjeu a essentiellement échappé à la fois aux médias et aux candidats dans leur narratif de campagne : la moralité. Le poids des affaires et de la mise en examen plombe Nicolas Sarkozy de manière irrémédiable. La très grande majorité du trafic Google pour Nicolas Sarkozy est dans ce scénario du “tourisme” anti sarkozyste. Ce dernier échoue, de plus, dans son repositionnement conservateur “anti-bayrou”. Nicolas Sarkozy reste ancré dans l’establishment. Le vote des Français est plus tactique qu’à l’habitude en vue du deuxième tour de la présidentielle : non à un candidat mis en examen face à Marine Le Pen.

Les niveaux de confiance pour les scénarios de deuxième tour sont les suivants :

Niveaux de confiance pour les scénarios de deuxième tour

La projection des résultats dans le scénario le plus probable Alain Juppé contre François Fillon est la suivante :

Les niveaux de confiance pour les positions à l’arrivée sont les suivants :

Dans ce scénario, observons que Nicolas Sarkozy rejoint le bas du tableau qu’il mène, quoique talonné par les candidats du renouveau, en premier lieu Bruno Le Maire. C’est seulement dans ce scénario que je vois Bruno Le Maire faire mieux qu’une quatrième place avec un niveau de confiance de 32% pour une troisième place.

Si on ignore ce scénario complètement, alors mon modèle annonce de manière quasi-robuste une quatrième place pour Bruno Le Maire. Le risque résiduel pour cette affirmation est une possible erreur sur la catégorisation de NKM, que nous avons placée en positionnement jeune. Notre étalon de catégorie jeune est Jean-Luc Mélenchon dans le premier tour de la présidentielle de 2012. C’est pourquoi NKM se retrouve particulièrement pénalisée alors que les données brutes la donnent à égalité avec Bruno Le Maire.

2.2. Le “landslide” Fillon

Dans ce scénario, l’électorat correspond plus à ce que les sondeurs et des candidats comme Nicolas Sarkozy et François Fillon espèrent : essentiellement quelques petits millions de personnes se déplacent et l’électorat est essentiellement centré sur les 60 ans et plus. La candidature d’ Emmanuel Macron à la dernière minute est toujours dans les esprits, il réussit son pari et démobilise l’électorat centriste gauche.

Nicolas Sarkozy réussit son repositionnement à droite, néanmoins la story de Mediapart sur la Libye semble avoir joué un rôle conséquent. Les 60 ans et plus se détournent de lui et votent pour le candidat qui selon eux fera le meilleur travail d’exemplarité face à Marine Le Pen.

Vu la tectonique des plaques des tendances décrite auparavant, je ne peux m’empêcher d’émettre l’hypothèse que nous avons affaire avec le thème de l’exemplarité à un soi-disant “elephant in the room”, une expression anglo-saxonne très juste pour décrire un fait tabou mais que personne ne peux ignorer. Il est tout à fait possible que le scénario du “landslide” Fillon soit en fait très réaliste même s’il est peu en ligne avec le narratif médiatique. Rappelons nous de l’action des médias avec le pétard mouillé de François Fillon sur De Gaulle et la mise en examen ou la non diffusion par France 2 du grand reportage sur Bygmalion au début de la campagne. A l’exception de Mediapart, les médias ne se sont pas beaucoup démenés pour faire surgir le sujet et le faire vibrer ensuite. Il est rationnellement possible que les médias ont stratégiquement sous-joué le sujet pour éviter de faire le jeu du Front National en cas de nomination de Nicolas Sarkozy. Cela n’empêche pas l’électorat, à rebrousse poil de l’influence des médias, de voir et considérer le dit “elephant in the room” dans leur vote.

Les niveaux de confiance pour les scénarios de deuxième tour sont les suivants :

Niveaux de confiance pour les scénarios de deuxième tour

La projection des résultats dans le scénario le plus probable Alain Juppé contre François Fillon est la suivante :

Résultats moyens pour 65% des simulations

Les niveaux de confiance pour le classement à l’arrivée sont les suivants :

Quelles sont les chances de François Fillon de l’emporter dès le premier tour ?

Niveau de confiance pour une victoire de François Fillon dès le premier tour

2.3. La mini-présidentielle

C’est le scénario le moins favorable pour François Fillon et celui qu’Alain Juppé appelle de ses voeux. Les Français considérent le scrutin comme le véritable premier tour de la présidentielle et se rendent en masse à la primaire. L’électorat se rapproche dans sa structure du premier tour de 2012. Le chiffon rouge “François Bayrou” a échoué et Nicolas Sarkozy est vu comme sortant de l’establishment. Par chance pour lui, l’électorat est en revanche peu sensible au discours de l’exemplarité. Il ne subit donc aucun dommage des “affaires”.

Les niveaux de confiance pour les scénarios de deuxième tour sont les suivants.

Niveaux de confiance pour les scénarios de deuxième tour

Les projections des résultats dans les deux scénarios les plus probables Alain Juppé contre François Fillon et Alain Juppé contre Nicolas Sarkozy sont les suivantes :

Résultats moyens pour 51% des simulations
Résultats pour 15% des simulations
Résultats pour 12% des simulations

Les niveaux de confiance pour le classement des candidats pour ce scénario sont les suivants :

C’est un scénario extrèmement ouvert quant aux chances de Nicolas Sarkozy et François Fillon d’accéder au deuxième tour mais aussi pour la première place. Voici l’évolution des niveaux de confiance pour respectivement la première place, l’accession au deuxième tour et la troisième place.

Niveaux de confiance pour la première place
Niveaux de confiance pour l’accession au deuxième tour
Niveaux de confiance pour la troisième place

2.4. “Sarkozy — I told you so ”

Finalement considérons le dernier carré, le plus en ligne avec le narratif médiatique de la campagne où

  • les “affaires” jouent un rôle limité dans le vote et la mobilisation de l’électorat
  • l’électorat correspond aux affirmations des instituts de sondage, plutôt conservateur et centré sur les 60 ans et plus
  • Nicolas Sarkozy réussit son recentrage sur la droite (chiffon “rouge” Bayrou)

C’est le scénario préféré de Nicolas Sarkozy, celui aussi qui reflète le mieux la résilience du socle Sarkozy longtemps visible dans l’analyse des tendances jusqu’au 10 novembre. Il est de plus en ligne avec le tout dernier sondage du Monde signalant la montée de François Fillon au détriment d’Alain Juppé avec un socle Nicolas Sarkozy.

Les niveaux de confiance pour les scénarios de deuxième tour sont les suivants :

NIveaux de confiance pour les scénarios de deuxième tour

La projection des résultats dans le scénario le plus probable Nicolas Sarkozy contre François Fillon est la suivante :

Résultats moyens pour 65% des simulations

Les niveaux de confiance pour le classement des candidats pour ce scénario sont les suivants :

Observons le switch entre François Fillon et Alain Juppé pour la lutte du deuxième tour.

Niveaux de confiance pour l’accession au deuxième tour
Niveaux de confiance pour la première place

3. Trafic Google Trends total de la primaire

Poids Google Trends du jour sur la somme des trafics des principaux candidats — calibré au 14 octobre

Vous observez ci-dessus le facteur utilisé pour la pondération des scores quotidiens entre eux. C’est une mesure de la résonance Google Trends de la primaire qui a augmenté en moyenne de 17%-21% par semaine depuis le 14 octobre. On y reconnait aussi l’importance des évenements médiatiques qui ont marqué cette campagne

  • le premier débat le 13 octobre
  • l’émission politique de Bruno Le Maire sur France 2 le 20 octobre
  • la bourde du prix des pains au chocolat de Jean-Francois Copé le 24 octobre
  • l’émission politique de Francois Fillon le 27 octobre sur France 2
  • le deuxième débat le 3 novembre
  • des passages en antenne sur tf1 et M6 d’Alain Juppé et François Fillon le 6 novembre
  • la dynamique Fillon qui fait boule de neige à partir du 10–11 novembre, attisée possiblement mais pas nécessairement par le troisième débat et surtout l’approche du scrutin

Conclusion

Il est temps de conclure. Il est 20 heures, ce 19 Novembre. Le vote électronique est ouvert pour les Français de l’Etranger.

Résumé des niveaux de confiance dans le haut du tableau

L’issue du scrutin est donc totalement ouverte. Néanmoins tentons un pari : nous avons une quasi robustesse et une dynamique extrèmement forte pour l’accession de François Fillon au deuxième tour. Je vous souhaite un bon vote ce dimanche 20 novembre.