[Data & crise] Saison #2 E1 — Super Monkey détecte les fake news

Published in

INVYO

4 min readApr 20, 2021

Après avoir volé sur les ailes de Super Parrot 🦜 et pris un peu de hauteur sur le monde du big data, c’est au tour de notre ami Super Monkey 🐒 de vous emmener dans ses aventures animées !

Son énergie n’a d’égal que sa ruse, et c’est grâce à sa communauté qu’il s’est formé au code et à la Data Science. C’est donc tout naturellement que nous l’avons choisi comme Star de cette nouvelle saison abordant les Liens.

Nous commençons ce voyage par les liens (ou lianes ? 🙃) de l’information !

1. On récolte l’information grâce à la librairie snscrape

En utilisant la librairie snscrape, on récolte les tweets associés aux #voltswagen et #duolingoroll, 2 poissons d’avril de cette année.

Poisson d’avril en date du 29/03/21 de l’entreprise Volkswagen, prétendant changer le nom de sa marque en référence à l’énergie électrique

Poisson d’avril en date du 01/04/21 de l’entreprise duolingo, prétendant créer des rouleaux de papier pour apprendre les langues en des lieux…insolites

# les commandes suivantes permettent de récupérer les tweets et leurs informations associées au format jsonsnscrape --jsonl --progress --max-results 3000 twitter-search "#voltswagen" > voltswagen.jsonsnscrape --jsonl --progress --max-results 3000 twitter-search "#duolingoroll" > duolingo_roll.json# transformation du format json au format tableau (dataframe) de la librairie pandasimport pandas as pddf_voltswagen = pd.read_json(r"C:\Users\user\voltswagen.json", lines=True)df_duolingo = pd.read_json(r"C:\Users\user\duolingo_roll.json", lines=True)

2. On explore ses données grâce à de la visualisation

Vous y voyez clair ? Mmmh, beaucoup d’information à démêler ; heureusement, Super Monkey est un as de la visualisation, qu’il exerce grâce à la librairie Plotly. Elle permet de réaliser tout type de graphes, du bar chart au bubble chart en passant par les map monde.

Super Monkey a appris progressivement une règle clé en visualisation : pour chaque phénomène correspond une visualisation adaptée ! Ici, il veut vous montrer l’impact en nombre de tweets de ces 2 poissons d’avril.

import plotly.graph_objects as gofig = go.Figure()fig.add_trace(go.Histogram(x=df_voltswagen['date'],marker_color='midnightBlue', name='#Voltswagen'))fig.add_trace(go.Histogram(x=df_duolingo['date'],marker_color='indianred', name='#DuolingoRoll'))fig.update_layout(title_text='Nombre de tweets journalier', font=dict(family='Courier New, monospace', size=10, color='Black'), xaxis_title='Date', yaxis_title='Nombre de tweets')fig.show()

Et ces lignes de code nous donnent le premier graphe suivant :

Nombre de tweets pour les #Voltswagen et #DuolingoRoll

Super Monkey constate que l’ampleur du #DuolingoRoll est beaucoup plus modeste que le #Voltswagen, pourtant, en post-annonce de poisson d’avril, le #DuolingoRoll mobilise davantage de tweets.

Il décide de s’intéresser à d’autres métriques que le nombre de tweets, comme les retweets, les réponses aux tweets, les likes, ou encore les citations. Il crée ainsi une nouvelle variable dite “engagement” pour mesurer l’ensemble des réactions sur Twitter. (NB : la création de nouvelles variables à partir de variables existantes est clé dans le travail du Data Scientist).

On observe que pour le #Voltswagen, il y a une écrasante majorité de likes, mais que la répartition entre les autres réactions est plutôt équilibrée

Le #DuolingoRoll a généré en pourcentage davantage de likes, et si les parts de de retweets et de citations se talonnent, la part de réponses est très faible

Ce genre de précision sur le comportement est une mine d’or lorsque l’on traite des données marketing en vue de mieux répondre aux attentes de sa cible.

3. On choisit les métriques les plus adaptées

Nous avons donc relevé que pour un même phénomène (le tweet) il y a plusieurs variables.

Il en est de même avec absolument tous les phénomènes : Super Monkey veut par-là vous sensibiliser à un dernier point important (pour aujourd’hui !).

Dans un problème de Data Science, choisir ses variables c’est tout aussi important que choisir sa problématique. On voit ici pour un phénomène simple, qu’il est possible de montrer plusieurs réalités en fonction de la métrique choisie.

Il est donc primordial d’explorer ses données avant de choisir les meilleures métriques pour sa problématique.

Ouf, vous pouvez souffler, c’est fini pour cet épisode #1 !

***

Si vous avez suivi la saison 1, vous devez vous dire : tiens, il aurait été possible de dresser une carte géolocalisant les tweets des #voltswagen et #duolinguo, pour voir dans quels lieux ils ont été les plus actifs ! Ou encore, par une analyse textuelle, de distinguer les personnes ayant cru à ce poisson d’avril des autres. Et ainsi de superposer deux cartes : celle des “fooled” et celle des plus malins !

En parlant de malin, Super Monkey vous garantit qu’il vous emmènera vers des aventures à la complexité croissante, mais qu’il mettra toute sa ruse à votre service pour que votre lecture soit la plus agréable possible.

Merci pour votre temps et à dans deux semaines pour suivre un Super Monkey plein d’énergie !

[Data & crise] Saison #2 E1 — Super Monkey détecte les fake news

1. On récolte l’information grâce à la librairie snscrape

2. On explore ses données grâce à de la visualisation

3. On choisit les métriques les plus adaptées

Written by Nadia Zabeti