crédit photo melenchon.fr

Les oracles Google Trends annonciateurs d’un séisme politique à la grecque à J-1 semaine ?

Le tribun poète Jean-Luc Mélenchon semble subjuguer les indécis à l’augure des intensités de recherche entre candidats.

Nous faisons l’hypothèse que les recherches sur les candidats de la présidentielle sont, au delà de la simple curiosité, un précurseur de la formation de l’opinion : s’informer avant de décider. Aussi la résonance médiatique en tant que répartition des intensités de recherches GoogleTrends offre une potentielle mesure du choix des indécis.

Nous utilisons la méthode simple dite de “cusum” pour déterminer la répartition dans le temps de la part des recherches de chaque candidat. L’observation de la pente sur la droite du graphe indique la tendance. La forme de la courbe permet de définir un profil qui jusque là a toujours été un bon moyen de prédire l’issue des scrutins des primaires de la droite et socialiste.

Comment interpréter les courbes ?

Avoir une dynamique donne une courbe avec une convexité forte vers le bas et une pente fortement positive sur la droite.

Un profil de vainqueur se caractérise par une capacité à capitaliser la résonance d’événement médiatique en événement médiatique, la pente ne retournant que à l’horizontale et non à une pente négative, 4 jours après chaque événement.

Une tendance positive se caractérise par une convexité de force variable vers le bas et une pente positive sur la droite.

Au contraire, l’attaque d’un socle, une érosion se caractérise par une courbe avec une convexité vers le haut et une pente négative sur la droite.

Une défection des électeurs se caractérise par un événement “big-bang” suivi d’une pente savonneuse sans interruption significative à sa droite.

1. La défection dans le camp socialiste

Elle a eu lieu très tôt, dès le lendemain de la victoire de Benoît Hamon. Depuis, le candidat socialiste vivote autour d’un socle en peau de chagrin.

courbe cusum de Benoît Hamon. Défection notoire.

Pour la petite histoire, ce fut le sort aussi de Jean-Francois Copé, Bruno Le Maire ou Emmanuel Valls dans leurs primaires respectives.

courbe cusum de Bruno Le Maire et Jean-François Copé. Défections notoires après respectivement un passage dans l’EP sur France 2 et l’histoire des pains au chocolat.
courbe cusum de Manuel Valls. Défection notoire à la suite de sa candidature et démission du poste de Premier Ministre.

2. La dynamique de la lettre grecque FI que rien ne stoppe jusqu’à aujourd’hui

Jean-Luc Mélenchon a adopté un profil de vainqueur depuis le 18 mars, jour de sa marche parisienne. Depuis, la pente de sa courbe est positive et s’est même accrue depuis le 8 avril avec son passage dans l’émission “on n’est pas couché”. Le candidat de la France Insoumise a réussi à capitaliser sur absolument tous les événements médiatiques depuis le 18 mars et tout particulièrement les débats. Seul François Fillon à l’Emission Politique de France 2 lui fait subir un trou d’air de quelques heures le 23–24 mars.

La forme de la courbe est annonciatrice d’une issue de scrutin favorable à Jean-Luc Mélenchon. Il se pourrait bien que la victoire soit à sa portée. Avec une accession au pouvoir de la gauche radicale anti-européenne, nous assisterions alors à une recomposition du paysage politique Français comparable à ce qui s’est passé en Grèce — un séisme politique.

Courbe cusum de Jean-Luc Mélenchon. Un profil de vainqueur.

Pour l’anecdote, c’est cette forme de courbe qui nous avait permis de prédire la victoire de type “landslide” de François Fillon et les bonnes chances de Benoît Hamon à leurs primaires respectives.

courbe Cusum de François Fillon à la primaire de la droite et du centre
courbe cusum de Benoît Hamon à la primaire socialiste

3. Qui résiste le mieux à la vague Jean-Luc Mélenchon ?

Moins la courbe se situe vers le haut dans sa convexité, meilleure est la résistance du socle. Observons donc les courbes des concurrents restants dans le haut du tableau, François Fillon, Emmanuel Macron et Marine Le Pen.

courbe cusum dans le haut du tableau

Il semblerait donc que l’analyse des tendances offre l’interprétation suivante. Marine Le Pen résisterait au mieux à la percée de Jean-Luc Mélenchon, devant Emmanuel Macron. François Fillon serait la lanterne rouge du peloton de tête.

Néanmoins, signalons qu’en intensités brutes, c’est l’ordre exactement inverse. François Fillon détient toujours le record absolu de résonance, devant Emmanuel Macron, Jean-Luc Mélenchon. Marine Le Pen ferme à son tour le peloton de tête. Alors qu’en penser ?

Intensités de recherche brutes GoogleTrends des principaux candidats depuis 2 mois.

Il faut corriger ces valeurs brutes (voir ci bas notre méthode), pour espérer faire des projections de résultats. Nous modélisons des erreurs aléatoires significatives sur nos corrections. Ceci nous permet de faire des simulations et nommer des niveaux de confiance sur les scénarios de deuxième tour.

Aussi selon notre modèle, Marine Le Pen a les plus mauvaises cartes pour faire face à Jean-Luc Mélenchon, si jamais ce dernier accédait au deuxième tour. François Fillon est en train de la rejoindre.

Evolution des chances d’Emmanuel Macron d’accéder au deuxième tour
Evolution des chances de François Fillon d’accéder au deuxième tour
Evolution des chances de Marine Le Pen d’accéder au deuxième tour

4. Jean-Luc Mélenchon peut toujours rater le deuxième tour

Même si la dynamique est très forte chez Jean-Luc Mélenchon, notre modèle ne le place pas de manière robuste (probabilité <80%) au deuxième tour. Finalement, ceci est le cas pour tous les candidats. Tout semble toujours possible à une semaine du scrutin.

Evolution des chances de Jean-Luc Mélenchon d’accéder au deuxième tour

Rappel sur la méthode Cusum

J’utilise la méthode dite de “cusum” que j’ai apprise et utilisée à outrance dans l’industrie aéronautique. Ce n’est pas une méthode de puriste statisticien mais plutôt de praticien opérationnel. Dans l’industrie il s’agit de se donner les moyens de réagir immédiatement à toute dérive des procédés industriels afin de protéger le client, en termes de qualité et de cadence de production. Le “cusum” est une méthode extrêmement simple qui amplifie les dérives afin de les rendre visibles à l’oeil avant que la statistique ne puisse les constater.

Ici, j’analyse l’intensité Google Trends relative de recherche sur les candidats principaux de la présidentielle. La valeur cible individuelle dite de contrôle de la fonction “cusum” est l’intensité relative totale de recherche Google Trends du candidat donné. Je normalise la valeur à un index 100 au début de l’analyse. C’est ainsi que ce faisant, je fournis un graphe qui indique la tendance individuelle dans l’opinion pour la présidentielle dans son ensemble pour autant que l’on s’accorde sur la valeur prédictive des recherches sur Google. Techniquement, une pente positive de la courbe indique une tendance positive, ergo un trafic relatif à l’instant t supérieur au trafic total et vice-versa. La droite du graphique indique logiquement la tendance actuelle.

Mon hypothèse majeure est que les recherches Google sur les candidats de la présidentielle illustrent la curiosité vis à vis de ceux-ci mais sont aussi un précurseur de la formation de l’opinion. Dans l’analyse “cusum” des tendances, aucun facteur de correction du buzz n’est employé par soucis de simplicité et je me penche plutôt sur la décomposition dans le temps pour chaque candidat de son intensité relative de recherche et non sur le mix entre candidats.

La simplicité de la méthode purement quantitative est aussi sa faiblesse : je ne donne aucune considération de la qualité du buzz dans la courbe cusum. Cette hypothèse forte est une épée de Damoclès sur la qualité prédictive des affirmations, tout particulièrement pour le cas François Fillon depuis le Penelope Gate. Aussi le retour de la réalité le soir du 23 avril nous donnera une indication si plus de programmation pour nettoyer le buzz sera nécessaire dans l’analyse des tendances.


Rappel méthodique sur le modèle pour les projections :

Je suis convaincu que les données brutes GoogleTrends cumulées sur une période de deux mois ne représentent qu’approximativement la réalité de l’opinion.

Si bien que j’ai développé ma “Data Driven Story” pour corriger le tir en suivant les enseignements de Nate Silver dans son livre “the signal and the noise”. Celle-ci est basée essentiellement sur trois éléments :

  • la sociologie des internautes est présumée autour des 18–24 ans car le vote de cette catégorie en 2012 est celui qui correspond le mieux aux recherches Google. Je clusterise les candidats dans une catégorie de positionnement pour établir une équivalence avec l’étalon de correction, le premier tour de la présidentielle de 2012. Puis je corrige les données Google Trends en fonction d’études sociologiques IFOP-IPSOS du vote de 2012. Alternativement, j’utilise des données plus récentes fournies par l’IPSOS dans son baromètre de l’action politique (mars 2017).
  • De plus, chaque candidat possède un potentiel de polarisation individuel. La sociologie n’arrive pas à expliquer à elle seule l’écart de Google Trends en 2012. Je présume d’une capacité des candidats à susciter du trafic “touristique” au delà de l’expression d’un interêt et support authentique dans les recherches Google. Pensez par exemple à l’histoire des pains au chocolat de Jean-François Copé. J’ai donc catégorisé les candidats dans des potentiels étalonnés à 2012 entre “très négatif”, “négatif”, “légérement négatif”, “fort” et “très fort”.

Voici à quoi ressemblait la situation en 2012

premier tour de l’élection présidentielle de 2012
  • L’émergence du Penelope Gate a montré une caractéristique qui existait moins dans notre étalon : la sur-exposition médiatique. Nous la corrigeons en considérant 40% de l’écart à la moyenne des temps de parole cumulés actuels du CSA comme facteur de correction supplémentaire au potentiel de polarisation.
données du CSA cumulées depuis le 1er février 2017

Voici nos choix pour les quatre configurations de simulation “Anti-Système”, “Macron-Mania”, “Mélenchon-Mania” et “vote utile pro FI-EM”.

potentiel de polarisation après correction de la sur- ou sous-exposition médiatique

Notons une interprétation supplémentaire de mon facteur de polarisation médiatique. Le sondage IFOP du 6 février donne des indications sur la diversité de la sureté de choix de l’électorat entre les candidats. Je n’ai pas utilisé cette information pour décider de mes facteurs jusqu’à aujourd’hui, mais je note une corrélation négative intéressante entre ce facteur et mon facteur de polarisation : celui-ci peut donc être au mieux interprété comme une combinaison de potentiel de curiosité, d’un vote utile et en négatif de sureté de choix.

Pour refléter au mieux la force de Marine Le Pen dans toutes les enquêtes d’opinion, et en cohérence avec un taux de sureté de choix de plus de 80% de son électorat, je déplace le curseur pour Marine Le Pen de potentiel légèrement négatif à très négatif; ce qui enfle son intensité relative GoogleTrends au maximum de mon étalon du scrutin de 2012.

Nous modélisons l’incertitude quant aux catégories d’Emmanuel Macron et Jean-Luc Mélenchon. Nos analyses précédentes et comparaison avec les sondages corroborent au minimum un potentiel de polarisation fort pour Emmanuel Macron. Je lis dans le sondage cité plus haut que son électorat est très fluide et peu sûr de son choix, il en va de même pour Jean-Luc Mélenchon. Je teste ainsi les configurations “anti-système” et “Mélenchon-Mania” où Emmanuel Macron subit un facteur de polarisation très fort ou au contraire transforme résonance en vote dans les configurations “Macron-Mania” et “vote utile FI-EM” avec un potentiel légèrement négatif. Quant à Jean-Luc Mélenchon nous testons en fonction des configurations des potentiels entre “ négatif” et “légèrement négatif”.

Quant à Benoit Hamon, seulement 40% de son électorat est sûr de son choix au 6 février, nous le plaçons en potentiel fort, en cohérence aussi avec son status de représentant du Parti Socialiste, pouvoir sortant et donc à même de subir les conséquences d’un désir d’alternance. Finalement depuis le Penelope Gate et le choix d’un frondeur comme candidat du PS, j’élimine les configurations avec vote utile pour la droite et gauche classique.

Rappelons que François Fillon est maintenant en facteur de polarisation très fort, ce qui grosso modo au total élimine la moitié de son trafic. Ceci a le but de déduire le “mauvais cholestérol”, curiosité & Co dans le trafic.

  • Je considère la possibilité d’erreurs significatives sur les corrections et la valeur Google Trends elles-même. Ainsi j’étends le modèle et opère 21 000 simulations dites de “Monte-Carlo” en introduisant des erreurs aléatoires sur les facteurs. J’utilise les maximums de l’étalon comme amplitude maximale de la fonction aléatoire. Ceci me permet de nommer un niveau de confiance en comptant le nombre de simulations autour d’une affirmation et donc aussi de parler de robustesse du modèle lorsqu’une affirmation est visible dans plus de 80% des simulations.
  • Finalement rappelons pour la petite histoire que cette méthode m’a permis de prévoir la victoire de type “landslide” et le score de François Fillon au premier tour de sa primaire.

EDIT 16 Avril : l’étude du mois d’avril du baromètre Ipsos-Le Point montre un changement brutal de la structure démographique de l’opinion favorable à Jean-Luc Mélenchon par rapport au mois de mars et à l’étalon de 2012. Nous faisons l’hypothèse que les 18–24 ans sont prépondérants chez les internautes. Voici les nouveaux facteurs de correction démographique.

En effet, Jean-Luc Mélenchon est plus populaire dans l’ensemble de la population que chez les jeunes comme un candidat de la droite ou extrême-droite. Ceci était le contraire jusqu’à la semaine dernière. Nous passons d’un facteur de correction de +15% à -17%. L’impact est significativement favorable à Jean-Luc Mélenchon au détriment de ses concurrents.

Afin de simuler avec plus d’amplitude l’incertitude sur le vote utile en faveur de Mélenchon et d’amortir l’impact du changement de structure démographique, nous changeons légèrement nos catégories pour le candidat — facteur de polarisation “légèrement négatif” pour la “Mélenchon-Mania” et le “vote utile pro FI-EM”, facteur de polarisation “positif” pour le “vote anti-système” et la “Macron-Mania”.

potentiel de polarisation après correction de la sur-ou sous-exposition médiatique

Selon un sondage de BVA pour Ouest-France, Jean-Luc Mélenchon pourrait l’emporter en cas de deuxième tour face à François Fillon. En comptabilisant ce narratif qui illustre un changement de l’électorat de Jean-Luc Mélenchon, nous voyons, qui plus est, sa probabilité de victoire à l’élection augmenter significativement au détriment des chances de François Fillon.