Analizando más 5,000 letras de canciones de música regional mexicana (banda)

enrique a.
2 min readMay 8, 2018

--

Como parte de un proyecto personal en el que estoy trabajando, he recopilado un corpus (https://en.wikipedia.org/wiki/Text_corpus) de más de 5 mil canciones de música de banda (música regional mexicana). Para ser más precisos, se trata de:

  • 5,712 canciones
  • 192,191 líneas
  • 1,081,173 palabras
  • 5,683,826 caracteres

Ahora bien, en realidad para realizar mi proyecto no es necesario hacer un análisis como el que presento a continuación, principalmente porque se basa en la utilización de RNN o Recurrent Neural Networks (https://en.wikipedia.org/wiki/Recurrent_neural_network). En decir que voy a utilizar Deep Learning, que en palabras de un profesor que conozco y se está especializando en el tema “es una disciplina para vagos, para vagos con suerte”. Esto se refiere a que Deep Learning generalmente se aplica sobre sets de datos que requieren poco o nada de pre-procesamiento (vagos), pero que por otra parte, para dar resultados buenos, deben de ser enormes (con suerte).

Volviendo al asunto de la banda, quise obtener estos números meramente por curiosidad. Por ejemplo en cuanto a promedios, cada canción tiene aproximadamente:

  • 33.6 líneas
  • 189.3 palabras
  • 995 caracteres

El otro análisis, este realmente interesante (¡lo prometo!), es del vocabulario, y la frecuencia con la que cada palabra es usada. Naturalmente las preposiciones, adverbios, conjunciones, y demás, se encuentran en los primeros sitios. Por ejemplo, la palabra más usada es “que”, con 48,148 apariciones, seguida de “y”, con 32,889.

Tampoco es sorpresa que fuera de estos grupos la palabra más usada (y número 24 global) sea “amor”, con 6,051 usos (aprox. una vez por cada canción, en promedio). También llaman la atención el número 31 global, “quiero”, con 4,272 y el 35, “vida” con 3,630.

Del lado de lo cómico tenemos al número 55 global, “pa”, ¡con increíbles 2,131 ocasiones! Para esto hay comentar que, aunque no voy a dar muchos detalles de como conseguí el corpus (web scraping, ejem, ejem), viene de un sitio donde los usuarios pueden registrarse gratuitamente y subir nuevas letras (supongo que sin ninguna clase de filtro). Así es que está lleno de faltas de ortografía, caracteres extraños, etc. Todo esto está contemplado para mi proyecto. El colmo es el curioso caso de los números 77 y 78 que son, respectivamente, “corazon” y “corazón”, ¡con 1,313 y 1,301 apariciones!

Todavía no sé si voy a (o si es buena idea) hacer público el corpus cuando comparta los resultados y el código fuente del proyecto.

Por último, dejo aquí la lista de las 100 palabras de más de 3 letras más usadas:

--

--

enrique a.

Writing about Machine Learning, software development, python. Living in Japan working as a machine learning leader in a Japanese company.