[Data & crise] Saison #2 E3 — Super Monkey danse sur les hits du moment

Nadia Zabeti
INVYO
Published in
4 min readMay 18, 2021

Vous savez maintenant que Super Monkey aime se balader à vélo dans Paris et et qu’il en devine des corrélations 👇

Prêt(e)s à découvrir son autre passe-temps favori ? Oui, Super Monkey est un grand danseur et aujourd’hui, il va utiliser sa passion pour les hits du moment pour répondre à cette question 🎶

Est ce que les évènements extérieurs influencent notre consommation musicale ?

En d’autres termes : dans une période joyeuse, est ce qu’on écoute par exemple plus de musiques entraînantes que dans une période plus compliquée ? Est ce que dans une période maussade on écoute plus de chansons courtes et instrumentales? Bref : est ce que le contexte ambiant détermine le type de musique que l’on écoute, si oui, comment ?

Pour répondre à cette question, Super Monkey a choisit de vous faire revivre deux périodes très différentes sur lesquelles il a dansé : la première semaine du mois de mars — quand on se promenait sans masque et qu’on se serrait la main— et la première semaine du mois d’avril (en plein confinement). Oui vous avez bien lu: Super Monkey a dansé pendant le confinement, mais était-il vraiment le seul à écouter des musiques entraînantes quand nous étions confinés ? La réponse dans la suite de cette épisode 🚀

1. On commence par récolter les données des chansons du top 200 sur les 2 semaines choisies

Semaine 1 : du 28 février au 06 mars 2020 / Semaine 2 : du 03 au 10 avril 2020

Pour cela, on utilise l’API de Spotify et la librairie spotipy:

import spotipyfrom spotipy.oauth2 import SpotifyClientCredentialscid = [saisir votre identifiant]secret = [saisir votre code secret]client_credentials_manager = 
SpotifyClientCredentials(client_id=cid, client_secret=secret)
sp =
spotipy.Spotify(
client_credentials_manager=client_credentials_manager)
# on crée la fonction pour récolter l'identifiant des musiques des top 200 étudiésdef get_id(df): all_ids = [] for i in range(0,df.shape[0]): artist_name = df["Artist"][i] track_name = df["Track"][i] id_ = sp.search(q='artist:' + artist_name + ' track:' + track_name, type='track')["tracks"]["items"][0]["id"] all_ids.append(id_) return all_ids# on applique la fonction à nos deux dataframesdf_mars["ID"] = get_id(df_mars)df_avril["ID"] = get_id(df_avril)# on récolte les paramètres musicaux df_mars["features"] = df_mars.ID.apply(lambda x: sp.audio_features(x))df_avril["features"] = df_avril.ID.apply(lambda x: sp.audio_features(x))

On obtient deux tableaux de la sorte :

Extrait du tableau pour la période de mars

2. On analyse les données

Grâce à nos deux tableaux, on réalise deux graphiques.

Pour les lire, retenez les points suivants:

  • la “speechiness” est une variable qui mesure la part de paroles dans une chanson
  • la “liveness” est une variable qui mesure à quel point un son a été enregistré en live et non dans un studio
  • la “valence” est une variable qui mesure l’émotion engendrée par un son. Par exemple, plus une valence est positive, plus elle engendrerait une émotion positive.

Et maintenant c’est parti pour l’analyse ! Vous constatez avec nous que dans le premier graphique, la tendance en fin de semaine est plutôt à la baisse, quand pour la période en confinement, la tendance de fin est plutôt à la hausse.

En zoomant variable par variable, on peut ainsi relever que sur la période de confinement étudiée:

  • les utilisateurs ont écouté des musiques contenant davantage de paroles (speechiness)
  • les utilisateurs ont écouté plus de musiques enregistrées en live et non en studio (liveness)
  • les utilisateurs ont écouté des musiques à valence plus faible (moins d’émotion positive)
  • les utilisateurs ont écouté des musiques dont le tempo n’a pas connu de grande variation
  • les utilisateurs ont écouté des musiques plus courtes

Pour résumer, il semblerait qu’en période de confinement (en prenant la semaine étudiée comme référence), les musiques écoutées soient plus courtes, à valence plus faible, mais plus vivantes (enregistrées en live et contenant davantage de paroles) 🎧⚡

Un peu comme si par la musique, nous tentions de compenser les restrictions sociales imposées par les mesures sanitaires 🤲🏽

3. A vous de jouer

Pour voir si vous commencez à vous mettre dans la peau d’un Data Scientist, j’ai quelques questions pour vous:

  • pour quelles raisons avons nous choisi ces 2 périodes (premières semaines de mars et d’avril 2020) ?
  • comment avons-nous contourné la difficulté des différentes unités des variables (ie une durée se compte en millisecondes mais un tempo en BPM) ?
  • quelle est l’activité ludique liée à la musique et surtout au chant que nous allons aborder dans l’épisode #4 ? 😍🎤

A dans deux semaines ! 🐒

--

--