[Data & crise] Saison #1 E4 — Super Parrot sait où sont vos fans

Nadia Zabeti
INVYO
Published in
4 min readMar 9, 2021

Super Parrot continue l’exploration du NLP (Natural Language Processing), cette branche de la Data Science que vous connaissez maintenant (cf. épisode 3) 👇

Oui, l’analyse de sentiment c’est du NLP, tout autant que les bots sur vos sites d’achats en ligne ou que vos assistants vocaux. Le point commun ? Le traitement du langage humain via du code.

Aujourd’hui, Super Parrot vous présente une des possibilités offertes par le NLP : la reconnaissance et l’extraction d’entités dite Named Entity Recognition ou NER (promis on s’arrête là pour les acronymes 😄). Car Super Parrot est un perroquet qui non seulement sait lire mais sait repérer les noms de personnalités, et vous allez voir tout ce que cela ouvre comme champs de potentialités.

Pour commencer, Super Parrot récolte de la donnée sur Twitter, en ciblant les publications contenant le hashtag “covid-19”. Comment procède-t-il ? Tout simplement via un terminal, l’outil permettant d’exécuter des commandes (c’est souvent ce que vous avez aperçu dans les films mettant en scène des développeurs 😄). Il saisit la ligne suivante :

Terminal permettant d’exécuter des commandes

Et récupère ainsi pas moins de 300 000 tweets avec quelques informations associées (contenu, date, identifiant de l’utilisateur, nom de l’utilisateur…), et filtre sur les tweets de langue française.

Extrait du dataframe contenant les 300 000 tweets et leurs informations associées

On est désormais prêt à attaquer l‘extraction ! Pour pouvoir suivre le code, voici la légende de la labellisation par le NER :

LOC : Localisation

ORG : Organisation

PER : Personnalité

MISC : Divers

#on procède aux importsimport spacy
import fr_core_news_md
#on charge le modèle fr_core_news_mdnlp = fr_core_news_md.load()#exemple 1 de labellisationdf["content"][2370]"Anne Hidalgo aussi claire que le gouvernement sur sa stratégie contre la #COVID-19 🤯 https://t.co/jbPJJqxui9"doc = nlp(df["content"][2370])
for ent in doc.ents:
print(ent.text, ent.label_)
Anne Hidalgo PER
#COVID-19 🤯 https://t.co/jbPJJqxui9 MISC
#exemple 2 de labellisationdf["content"][2684]"Crise du Covid-19 : situation de l’Occident avant l’épidémie https://t.co/VhQuvGj9Uy"doc = nlp(df["content"][2684])
for ent in doc.ents:
print(ent.text, ent.label_)
Covid-19 MISC
Occident LOC
#exemple 3 de labellisationdf["content"][6547]"Prime d'intéressement chez PSA : comment expliquer les bons résultats malgré la crise du Covid-19 ? https://t.co/CIsgKOq0RW https://t.co/5rcfBXAuxa"doc = nlp(df["content"][6547])
for ent in doc.ents:
print(ent.text, ent.label_)
PSA ORG
Covid-19 MISC

Plutôt épatant non ? Mais à quoi est-ce que cela peut bien servir concrètement dans une vie d’entreprise ? Nous allons y répondre, avant cela, Super Parrot veut vous donner le classement des personnalités qui apparaissent le plus dans les tweets liés à la covid-19 :

Didier Raoult    #1 🥇
Gabriel Attal #2 🥈
Emmanuel Macron #3 🥉
Michèle Rivasi #4
Jean Castex #5

Et grâce à la géolocalisation des utilisateurs, il est même capable de savoir où sont les “fans” de ces personnalités ! NB : Sur notre échantillon de 97 messages pour lesquels nous avons à la fois localisation et nom, Super Parrot a placé les points sur la carte.

Chaque couleur correspond à une personnalité. Et à chaque point correspondent les utilisateurs d’une ville donnée. Par exemple, le point bleu à Nice correspond à 3 tweets parlant d’Emmanuel Macron.

Répartition géographique des tweets contenant le hashtag “covid-19”

Une application ? Utiliser cette analyse pour le choix des déplacements de ces personnalités en fonction de leur “audience” ou dans la communication qu’elles mettent en place en fonction de ce “public”.

Mais l’application du NER est beaucoup plus large. Elle est notamment très pertinente dans un contexte de grand volume de documents, ou en remplacement d’une tâche répétitive et à faible valeur ajoutée pour l’homme.

Le NER peut en effet permettre de rediriger les mails vers les bonnes personnes et dans les bons dossiers, de faciliter la gestion des paiements bancaires, de mettre en place des Q&A, ou encore d’extraire des séquences de gènes dans le domaine biomédical.

Merci d’avoir suivi cette aventure et nous vous donnons rendez-vous dans un prochain épisode !

--

--