Photo by Suzy Hazelwood from Pexels

Lyrics Exploration — Uma forma (mais) motivadora de aprender PLN

Matheus Freitag
Mar 11 · 5 min read

Dentro de uma empresa de Data Science, PLN se torna algo rotineiro e importante em um dia de trabalho, então como apresentar esses conceitos para novos Cientistas de Dados?

Técnicas de Processamento de Linguagem Natural são extremamente úteis para identificar padrões em textos, entender seus conteúdos, a relevância de um corpus dentre vários outros e até para segmentação de assuntos. Não é incomum Cientistas de Dados adentrarem no universo de manipulação e tratamento de texto em algum ponto de suas carreiras, sendo natural que maneiras diferentes de treinamento desses mesmos cientistas apareçam. Na Indeorum, uma maneira de apresentar este universo foi dada por meio de “Lyrics Exploration”, ou, de maneira mais direta, compreender músicas (e artistas) por meio da Ciência de Dados.

Motivação

Composições musicais são uma ótima maneira de começar a entender PLN: Elas possuem uma composição escrita, possuem sentimento, assunto, volume de informação e já são naturalmente agrupadas em álbuns ou eras, o que permite extração de fases da vida ou contextos específicos na vida de um artista. Além disso, nós, enquanto humanos, temos uma pluralidade enorme em gostos musicais pessoais, muitas vezes entrelaçando estes gostos a sentimentos únicos, então personalizar um conhecimento técnico junto a algo tão intrínseco a nós trás o fator motivacional (e o divertimento) de entender técnicas de PLN.

Método

Dentro da empresa, foi pedido a todos que tivessem interesse escolher um(a) artista favorito(a) para que as diferentes etapas do nosso treinamento fossem usadas. As escolhas foram as mais diversas como Lorde, Eminem, Green Day, Miley Cyrus e Slayer. Foi interessante a pluralidade de artistas porque todos possuem tempo de carreira — e portanto número de álbuns e de composições diferentes — o que agrega valor nas nossas análises, mostrando diferentes trajetórias entre os artistas.

As diferentes etapas do treinamento são apresentadas a seguir:

Diversidade Léxica

Nesta etapa, nós analisamos a diversidade de termos entre todas as músicas do artista. Menor a diversidade léxica, mais “repetitivas” são as canções, pois menos termos são usados em cada uma delas. Com estas informações, fizemos um histograma para entender melhor o comportamento dessas composições.

Como exemplo, temos os resultados mostrados acima, onde é constatado que Eminem possuem muitas canções com 250–400 termos únicos, mas com canções chegando a mais de 600 termos únicos. Lorde costuma ser mais repetitiva em suas composições, com a maior parte de suas músicas possuindo entre 100–185 termos únicos, chegando a 200 termos em algumas delas. É interessante também notar que Eminem é um artista de rap, enquanto Lorde canta pop. Pode ser o caso do gênero pop ser mais repetitivo que o gênero rap, e uma análise com uma quantidade suficientemente grande de artistas de diferentes gêneros possibilitaria fazer comparações entre esses gêneros, mas isso foge do escopo deste contexto.

Termos mais frequentes

A frequência de cada termo dentro de um corpo de texto pode ser um indicador da importância de determinado assuntos dentro do contexto (apesar de não ser o único; mais sobre isso a seguir) e, no nosso caso, da importância de certos assuntos dentro das composições de um artista. Para isso, verificamos, inicialmente, a sequência da palavras nas composições de cada artista, e depois, dentro do escopo de cada artistas, as palavras mais usadas em cada álbum.

Termos mais usados por Lorde em suas músicas.

Aqui temos um caso de tratamentos iniciais dos dados. Por exemplo, neste caso foi pertinente remover palavras com menos de 3 caracteres de comprimento, porque dentro do escopo da Lorde, a maior parte das palavras com menos de 3 caracteres eram interjeições. O mesmo não se aplicou para Slayer, por exemplo, onde termos como God apareciam com frequência.

TF-IDF

O Termo–Inverso da Frequência nos Documentos (ou TF-IDF) é uma outra forma de verificar a importância de termos dentro de um documento. O problema de verificar puramente a frequência de termos é que, pode ser que uma palavra específica só apareça mais vezes em um corpo de texto que em outro porque um texto de corpo é maior que o outro — e portanto, possibilitando mais chances da palavra aparecer. O TF-IDF considera essas especificações e permite um score mais fidedigno da importância de termos específicos frente a um corpo de texto (ou vários corpus de texto).

Termos mais importantes em 2 dos álbuns do Green Day, de acordo com o TF-IDF score.

Análise de Sentimentos

Existem diversas formas de se analisar sentimentos usando PLN. Como todos os artistas estudados são cantores de língua inglesa, utilizamos o NRC Emotion Lexicon (MOHAMMAD, S. e Turney, P.; 2013) para detectar sentimentos nas canções. O NRC é, de maneira simplificada, um dicionário que mapeia termos diversos para 8 sentimentos distintos: Alegria, Tristeza, Medo, Raiva, Confiança, Antecipação, Surpresa e Desgosto. Com isso é possível compreender quais os sentimentos mais presentes em cada álbum dos artistas estudados.

Os sentimentos mais frequentes em cada um dos álbuns da Lorde.

O NRC não apenas mapeia termos e sentimentos, como também os classifica como sentimentos Positivos ou Negativos, sendo possível, por exemplo, verificar quais termos mais cooperam para formar os sentimentos de cada álbum.

Quais termos mais cooperam para os sentimentos positivos e negativos de cada álbum da Lorde.

Conclusão

Nós entendemos que, a partir do momento que algum tipo de personalização é trazida ao treinamento técnico, a motivação garante um aprendizado mais dinâmico e mais facilitado. O uso de gostos pessoais dos participantes, bem como a atividade lúdica de aplicar PLN em algo tão presente em suas vidas trouxe bons resultados, tanto na curiosidade por novas técnicas, como no entendimento e replicação a longo prazo das técnicas vistas em outros tipos de escopo.

Indeorum

O blog Indeorum é um espaço para divulgação de notícias e…

Matheus Freitag

Written by

We either accept reality or take the responsibility to change it.

Indeorum

Indeorum

O blog Indeorum é um espaço para divulgação de notícias e resultados e um espaço para que colaboradores compartilham conhecimento sobre áreas afins.

More From Medium

More on Data Science from Indeorum

More on Data Science from Indeorum

Processo criativo cientum 3.0

Mar 31 · 4 min read

1

Welcome to a place where words matter. On Medium, smart voices and original ideas take center stage - with no ads in sight. Watch
Follow all the topics you care about, and we’ll deliver the best stories for you to your homepage and inbox. Explore
Get unlimited access to the best stories on Medium — and support writers while you’re at it. Just $5/month. Upgrade