Análise da música brasileira — parte 3: Complexidade das Letras

Published in

datacoffee

8 min readJan 27, 2024

A etapa final desse trabalho de análise buscou mensurar a complexidade das letras das mais de 31 mil músicas analisadas¹.

Indicadores

Assim como na análise de complexidade harmônica, vamos trabalhar com alguns indicadores, que serão ao final agregados por artistas e estilos.

Percentual de palavras distintas

Aqui calcularemos a razão entre o número de palavras (sem contar as repetições) de uma música e o total de palavras da música. A ideia é valorizar letras menos repetitivas e, por conseguinte, mais elaboradas. O exato oposto de Índia Seus Cabelos, de Tiririca:

Letra da Música Índia seus Cabelos, Tiririca. Link

Bem, estão nesse caso específico temos 4 palavras distintas na letra, dentre um total de 36 palavras, o que resulta num indicador de aproximadamente 0,11.

Já a música Matagal, da banda Supercombo, tem um percentual de 71% de palavras distintas:

Trecho de Matagal, da banda Supercombo. Link

Raridade das palavras utilizadas

Com esse indicador vamos enfatizar a originalidade das letras, atribuindo valor menor a palavras muito utilizadas, e valor maior às mais raras.

Para isso, utilizaremos um indicador muito comum em trabalhos de mineração de texto, chamado tf-idf. Ele atribui às palavras de um texto um valor que é diretamente proporcional a sua frequência no texto específico (letra) e inversamente proporcional a sua frequência no total de documentos analisados. Atribui-se finalmente uma nota ao próprio texto, a partir da média das notas dos termos.

A música Todo Mundo Odeia, do grupo de rap Pineapple, tem o maior indicador de raridade das palavras:

Trecho de Todo Mundo me Odeia — Pineapple. Link

A soma dos índices de raridade pode privilegiar letras mais longas, como tipicamente ocorre nos Hip-Hop-Rap. Se tomarmos a média pelo número de termos, a música Um Pequeno Imprevisto, dos Paralamas do Sucesso, também é destaque:

Um Pequeno Imprevisto, dos Paralamas. Link

Já a música Rubi, do Calypso, tem indicador bem baixo, pois usa termos muito comuns:

Número de rimas na música

Identificar rimas em texto é um desafio bem grande, pois rimas podem ser construídas de diversas maneiras, algumas muito sutis, e há o aspecto fonético, que é fundamental e o mais desafiador.

A minha abordagem aqui seguiu dois caminhos. Raspei os dados do site www.dicionarioinformal.com.br, que traz listas de rimas sugeridas para cada palavra pesquisada. Além disso, calculei o indicador de Demerau-Levenshtein, de similaridade textual, entre as terminações de palavras.

Em resumo, o processo foi o seguinte (repare que eu gosto de listas):

· Primeiro, identifiquei a palavra final de cada verso da letra
· Em seguida, identifiquei todas as palavras que se seguiam (numa distância de 2 versos) a cada uma dessas palavras “alvo”
· As comparações então foram feitas “um para N”, com os pares formados. Se uma dessas condições foi verdadeira, o par foi identificado como uma rima: 1) A segunda palavra do par estar dentre as listadas como rima da primeira, no banco de rimas originado da raspagem do site www.dicionarioinformal.com.br; 2) O indicador de Demerau-Levenshtein, de similaridade textual entre as terminações das palavras, apresentar uma medida, numa escala de 0 a 1, superior a 0.6.

As rimas foram contabilizadas para cada música, e o indicador é a razão entre o número de rimas e o número de palavras da letra.

Número de rimas em classes gramaticais diferentes

Aqui temos um subconjunto das rimas identificadas, contando apenas os casos em cada palavra do par de palavras comparado pertence a uma classe gramatical diferente. Para isso, utilizei um algoritmo de tagueamento morfossintático em português. Mais detalhes no código. Aqui um exemplo de tagueamento, trecho de Sabiá, de Tom Jobim:

Tagueamento morfossintático de trecho de Sabiá — Tom Jobim

Veja que cada palavra da frase é classificada, e o algoritmo leva em conta a função de cada uma em relação ao contexto em que se insere, assim uma mesma palavra pode ter classificações diferentes a depender desse contexto.

A ideia desse indicador é valorizar mais as rimas de classes diferentes, pois são indicativos de que há mais complexidade dos versos. A título de exemplo, esta trecho da musica A Rita, de Chico Buarque apresenta alta complexidade:

A Rita levou meu sorriso, e o sorriso dela, meu asssunto. Levou junto com ela e o que me é de direito arrancou-me do peito…

Veja que "assunto" é um substantivo, que tem uma rima logo em seguida, "junto", que no entanto é um advérbio. São portanto, palavras de classes gramaticais diferentes. O mesmo vale para "de direito" (locução adjetiva) e "peito" (substantivo).

Já este trecho da música Meu Coração Voou, do Chiclete com Banana, tem rimas bem simples:

Passo o tempo imaginando, flutuando pelo mar. Seu perfume misturando esse aroma pelo ar, pelo ar. E assim eu vou te amando, me perdendo nesse olhar. Aos delírios navegando pelas nuvens, pelo ar, pelo ar.

Veja que as palavras rimando nas frases (mar-ar-olhar-ar; ou imaginando-flutuando-misturando-amando-perdendo) são todas substantivos, no primeiro grupo, e todas verbos, no segundo. Isso, pelo critério que eu adotei, denota menos complexidade. O que acha?

Composição da nota de complexidade

Esses 4 indicadores anteriormente descritos foram contabilizados para cada música. Por exemplo, a música Cabrocha do Rocha, de Noel Rosa, teve os seguintes indicadores:

Percentual de palavras distintas: 0,84
Indicador de Raridade: 0,15
Número de rimas identificadas: 13 (28,2% dos pares analisados)
Número de rimas em classes gramaticais diferentes: 7 (15% dos pares analisados)

Esses valores foram transformados para ficarem dentro de uma mesma escala (isso foi feito a partir da identificacão do decil ao qual o valor pertence na distribuição) e então agregados, pela mediana a um valor por artista.

Desta forma, cada artista recebeu a mediana das 4 notas transformadas, agora numa escala de 1 a 10. Os 2 indicadores de rimas foram juntados, por sua vez, numa média, restando então um grupo de 3 indicadores (Percentual de palavras distintas, raridade e rimas). A esses 3 foi adicionado mais um indicador, agregado por artista, referente ao total do vocabulário utilizado em todas as músicas analisadas.

Quem são os artistas com maior complexidade de letras

Pois bem, finalmente, os quatro indicadores (Percentual de palavras distintas, raridade, rimas e vocabulário total) estando numa escala de 1 a 10, puderam resultar num indicador final de complexidade da letra, pela média. Este é o ranking (20 melhores) de artistas resultante:

Artistas — Ranking de complexidade das letras (melhor visualização aqui)

Perceba a presença de nomes da música regional, seja do sul ou do norte/nordeste: Xangai, Zé Geraldo, Porca Véia, Teixeirinha e outros. Isso provavelmente se deve ao indicador de raridade das palavras, que beneficia vocabulários menos comuns. Na própria MBP, é fácil identificar artistas que usam muitas expressões locais: Djavan, Lenine, João Bosco. Vejamos um trecho de Linha de Passe, de João Bosco:

Toca de tatu, linguiça e paio e boi zebu, rabada com angu, rabo de saia. Naco de peru, lombo de porco com tutu, e bolo de fubá, barriga d’água. Há um diz que tem e no balaio tem também um som bordão bordando o som, dedão, violação. Diz um diz que viu e no balaio viu também…

Num trabalho futuro vou analisar a variabilidade temática das músicas, e imagino que isso também deva se refletir em benefício da MPB, que, imagino (a testar essa hipótese) tem temas mais variados, o que implica num vocabulário mais rico.

Aqui, as 20 menores notas:

Artistas — menores índices de complexidade (melhor visualização aqui)

Pra ilustrar essa turma do fundão da elaboração de letras, um trecho de Olha, se Você não me Ama, de Manoel Gomes:

Trecho de Olha, se Você não me Ama — Manoel Gomes. Link

Agregando por gênero

Agregando-se por gênero, temos esse resultado:

Estilos — ranking de complexidade de letras (melhor visualização aqui)

Os indicadores utilizados colocaram em destaque os ritmos regionais, muito em consequência do indicador de raridade das palavras.

Em comparação com o ranking de gêneros pela complexidade harmônica, vemos ainda a presença (já esperada), dentre os melhores, da MPB, Samba e Bossa Nova, além do pagode. Compõem inda esse grupo o Hip-hop-rap, muito em função dos indicadores de rimas, de fato muito valorizadas nas letras do estilo. Vejamos um trecho de Rap do L, da banda 7 Minutoz:

Assumi esse caso que apareceu por acaso
E que por não ter respostas me chamou a atenção
É que nesse caso bandidos estão morrendo
A maioria por ataque do coração
Mas algo está errado, acho que tem um culpado
Preciso de mais pistas pra investigação
Meu nome é L, pra mim nada é impossível
Um super-detetive sempre acha a solução

Reconhecendo limitações

Reconheço aqui prováveis viéses decorrentes de algumas escolhas metodológicas ou da limitação dos algoritmos utilizados.

Uma delas diz respeito ao cálculo dos indicadores de rimas. Optei por calculá-los de maneira relativa ao tamanho da letra da música, assim não olho para o número absoluto de rimas e sim para a razão entre o número de rimas e o de palavras na letra. Isso tem como principal consequência a não valorização de letras muito longas, que naturalmente teriam mais rimas. Fazendo o exercício de considerar os indicadores absolutos de rimas, o Hip-hop-rap saltaria da 7ª colocação para a 1ª. No entanto, considerei que os indicadores relativos seriam mais justos.

A heurística que criei para identificação de rimas é bem limitada. A distância de Demerau-Levenshtein não é uma medida perfeita para identificar rimas. Algoritmos que busquem similaridade fonética seriam mais eficazes, mas não encontrei nada muito útil em língua portuguesa. A consequência disso é que rimas mais elaboradas acabam passando desapercebidas. Um exemplo na canção Samba da Benção, de Vinícius de Moraes:

Ponha um pouco de amor numa cadência, e vai ver que ninguém no mundo vence a beleza que tem um samba não.

É bem sutil, mas "cadência" está rimando com "vence a". Infelizmente nosso algoritmo passa longe de contabilizar isso!

O indicador de raridade vai beneficiar palavras pouco usadas, o que pode elevar o valor de gírias, termos muito locais, ou palavras muito antigas, já em desuso nos dias atuais. Mas creio que o ganho que agrega na identificação de letras mais elaboradas supera esse possível viés.

O que achou dessa análise? Acesse demais estudos: aqui, aqui

Notas

[1] Código aqui.