Data, data

Un análisis inmersivo en el universo de Jorge Drexler a través de la exploración estadística de su música y letra.

No hay escasez de artículos geniales con buenos insights descubiertos a través del análisis de datos de donde los geeks musicales como yo podemos saciar nuestra sed de datos aleatorios sobre nuestros artistas preferidos. Aunque varios de estos artistas ya fueron cubiertos exhaustivamente por los héroes de los datos detrás de esos artículos, lo mismo no se puede decir sobre músicos hispanoparlantes (¿o hispanocantantes?).

Cuando llegó el momento de elegir el trabajo de alguien para analizar, este problema apareció bastante temprano. Desde allí, la decisión de elegir la música de Jorge Drexler fue casi automática. Uno de mis artistas favoritos de todos los tiempos, la música de Jorge viene de Uruguay; pero ciertamente se siente cómo si fuese de todo Latinoamérica. Con una mezcla de ritmos folclóricos desde Argentina hasta el Caribe e influencias desde Leonard Cohen hasta Caetano Veloso, su carrera abarca más de dos décadas y sus álbumes se siguen poniendo mejor y mejor. Sus letras son alabadas por ser altamente literarias y poéticas y su prosa, por momentos, se vuelve bastante única. Espero que al escribir este artículo su música tenga aún un poquito más de difusión, así más gente puede disfrutarlo, tal vez aún tanto como yo.

Probablemente la canción suya que más me gusta (¿pero cómo decidir?)

Tecnología

El proyecto entero fue desarrollado usando Python 3.
Creé y limpié la base de datos con pandas, BeautifulSoup, Spotipy (un increíble wrapper para Python de la Web Spotify API), la API de Genius y la Web Spotify API.

Además, cuando me di por vencido, la corregí y le di los últimos retoques usando Google Sheets y MS Excel.

En cuanto al análisis de datos y la visualización de datos, usé pandas, NumPy, Matplotlib, Seaborn, scikit-learn, SciPy, Natural Language Toolkit, wordcloud y py-lex. Todo el proyecto fue versionado usando Git y esta disponible públicamente en mi cuenta de Github.

Si quieren saber más acerca de como todo fue programada y calculado, si quieren ver la exploración en detalle y no solo los puntos destacados, si quieren hacer un clone o un fork del proyecto, descargar la base de datos o simplemente correr el código sólo hagan click aquí para visitar el repositorio.

Extracción de datos, creando una base de datos, limpieza y preprocesado de datos.

Como todo data scientist/analyst sabe (o debería saber) ya, conseguir los datos no es siempre fácil. Lo que sí pasa el 100% de las veces, no obstante, es que esta parte lleva tiempo. ¿Cuánto mejor serían nuestras vidas si pudiésemos googlear “jorge drexler database” y por algún milagro moderno terminar 3 minutos después con un hermosamente limpio .csv en el disco duro?

En retrospectiva, este fue el momento donde comencé con un error de principiante. No planeé cuáles eran mis objetivos y cuál era la mejor manera de llegar hacia ahí. Esto que arrancó como un pequeño proyecto para jugar con matplotlib y pandas, pasó por distintas fases e ideas hasta que me concentré en esta en particular. Para el momento que decidí cuál era el tipo de exploración que quería llevar a cabo, ya tenía hecho desarrollo que tuve que llevar hacia la dirección que quería. Las preguntas que me tendría que haber hecho de antemano eran del estilo de: ¿qué tipo de data necesito? ¿Dónde la puedo conseguir? ¿En qué formato va a estar? ¿Cómo la puedo transformar fácilmente? ¿Cuán limpia va a estar cuando la obtenga de la fuente A? ¿La fuente B será mejor? ¿Me ahorrará tiempo?
Dicho eso, terminé dónde y cómo necesitaba. No obstante, definitivamente había enfoques más fácil o más directos que me hubiesen ahorrado mucho tiempo.

Como primer paso, la extracción de datos la hice usando la API de Genius para obtener todas las letras de Jorge. La API te entrega todas las url para cada letra perteneciente al artista y no la verdadera letra. Así que después de algunos http requests, Beautiful Soup y borrar varios <div>s, terminé con una lista de canciones que contenían duplicados, covers, versiones en vivo y algunas que ni siquiera eran de Jorge.

Luego de borrar varias features sin uso y muchas canciones en portugués (¿?), comencé a enriquecer los datos a mano (OK, no mano, pero usando un script de Python), agregándole a cada canción su año y álbum correspondientes.

El tiempo pasó y decidí también obtener datos de la Web Spotify API también. En este momento me di cuenta cuánto más feliz hubiese sido si solo hubiese decidido hacer eso desde el principio. La data de Spotify está ordenada, prolija y no tiene duplicados ni canciones basura. No tienen las letras, verdad, pero teniendo un dataframe con todas las canciones con su álbum hubiese hecho todo más fácil. Después de borrar features inútiles, decidí las reglas y definiciones que aplican al estudio.

  • Este estudio solo se centra en álbumes oficialmente lanzados: no compilaciones y no álbumes en vivo. Estos son: La luz que sabe robar (1992), Radar (1994), Vaivén(1996), Llueve (1997), Frontera (1999), Sea (2001), Eco (2004), 12 segundos de oscuridad (2006), Amar la trama (2010), Bailar en la cueva (2014) y Salvavidas de hielo (2017).
  • Nada de singles o canciones lanzadas independientemente. No se incluyen canciones por Jorge que aparecen en compilaciones de varios artistas o colaboraciones en discos de otros artistas.
  • No incluye canciones en otros lenguajes. Esto elimina la versión de High & Dry en 12 segundos de oscuridad y I Don’t Worry About A Thing en Amar la trama.
  • Jorge lanzó sus primeros dos discos independientemente en Uruguay y luego su tercero en el sello Virgin, que tuvo un lanzamiento más amplio y con más llegada. Varias de las canciones en esos álbumes se repiten entre ellos, como Tu voyeur, Eden & La luna de espejos. Algunos de ellas se regrabaron. Aunque mantuve un registro de esto, no consideré nada en especial para el análisis. Los discos se analizaron como vienen, con las canciones que originalmente contienen y ninguna repeteción es considerada.

En este punto, me rendí con Python y pandas y continué mi misión llegando a MS Excel primero, y luego Google Sheets. Necesitaba unir las letras con la db de Spotify. Para mi fea sorpresa, tanto Microsoft como Google necesitan mejorar sus soluciones para manejar csv. ¡MS Excel para Mac no tiene soporte para Unicode! ¿Cómo puedo analizar letras en español si cada “é” u “ó” que aparece se transforma en un sinsentido como “é” o “ ó ”? Por otro lado, las opciones para importar y exportar en Google Sheets son bastante limitadas.

Después de este largo y duro camino, por fin estaba listo para comenzar a analizar.

Análisis de datos.

El primer foco estuvo en word count

Una vez que las stopwords del español (“de”, “la”, “que”, “el”, “en”, “y”, etc.) fueron removidas (y también algunos términos sin sentido como el “na” del estribillo de Estalactitas), llegué a las palabras más usadas en las canciones de Jorge.

Las 5 palabras más usadas son “mar”, “tiempo”, “noche”, “luna” y “corazón”. Para las personas que ya conocen sus canciones, esto solo ya dice un montón. Subamos la apuesta y tratemos cada una de estas cinco palabras como una unidad temática que se presenta al escuchar sus canciones. De esta manera podemos analizar cómo, a través del tiempo, el uso de ellas fue variando. Miremos todos los álbumes de esta manera.

¡Miren!¡Insights!

  • Le encantaba hablar sobre el “mar” en los 90s, pero se aburrió con el paso del tiempo.
  • En Vaivén (1996), el “corazón” aparece como un tema prácticamente nuevo. Nunca recupera la delantera desde entonces. Además, la “noche” está presente. ¿Podrá ser este un disco de desamores?
  • Durante la primer década del milenio, no revisitó sus temas preferidos demasiado.
  • Bailar en la cueva (2014) está muy centrado en la “luna” y la “noche”.
  • Salvavidas de hielo (2017) es sobre el paso del “tiempo”, una tendencia que desenpolvó de Frontera (1999), y, de nuevo, la “noche”.

Podemos llevar estos gráficos en una nueva dirección para ratificar nuestras últimas conclusiones y tal vez encontrar nuevas.

  • En este gráfico podemos verdaderamente ver el valle en el cual sus temas más populares caen en los 2000.
  • “Luna” llega a un máximo global en Bailar en la cueva (2014).
  • El “tiempo” tiene un pico en Frontera (1999), el “mar” en Llueve (1997) y la “noche” en su último álbum Salvavidas de hielo (2017).

Una tendencia interesante aparece si analizamos cómo la cantidad de palabras usadas fue variando con los años. Su máximo se da en 2014 con Bailar en la cueva, con más de 2400 palabras.

Aunque no es monótona, la curva definitivamente es creciente: con los años, suele agregar más palabras a sus canciones.

¿Cuáles serían las canciones con más palabras? Las siguientes:

Guitarra y vos lidera el ranking de más palabras en una canción con casi 400 palabras. Luego están La luna de Rasquí (367), Bailar en la cueva (367) y Movimiento (331).

¡Casi un rap!

La sección de contar palabras no estaría completa sin una pequeña y bella worldcloud:

Las 500 palabras más populares en sus canciones. El tamaño indica ranking.

Densidad léxica y lírica

Dado el caso de lidiar estrictamente con análisis de contenido, el concepto de densidad léxica es conocido como la medida del número de palabras con contenido como proporción del número total de palabras — un valor que se define en el rango entre 0 y 100. Como regla general, si un texto tiene mayor densidad léxica, es mayor en cantidad de contenido — los textos con baja densidad léxica son más fáciles de comprender.

De acuerdo a Wikipedia la fórmula es la siguiente:

donde Ld es la densidad léxica del texto analizado, Nlex es el número de tokens de palabras léxicas (sustantivos, adjetivos, verbos y adverbios) en el texto analizado, y N es el número de todos los tokens (número total de palabras) en el texto analizado.

No estoy seguro cuán ortodoxo es esto, pero basándome en el espectacular análisis de datos de Myles Harrison sobre Radiohead, parecería que esto es solamente la razón entre las palabras que no son stopwords al número total de palabras — o por lo menos se puede aproximar de esa manera. Chequiémos como resultó.

¡Miren esto! Hay una gran tendencia a decrecer con el tiempo. La densidad léxica disminuye entre La luz que sabe robar (1992) y Salvavidas de hielo (2017).
Frontera (1999) parecería ser un disco bastante consistente en términos de densidad léxica, mientras Sea (2001) está por todos lados. Continuemos antes de sacar más conclusiones.

Ahora, Myles inventó otra métrica. Básicamente, la densidad lírica es la cantidad de palabras por unidad de tiempo. ¿Cuán rápido viaja la información? ¿Cuántas unidades de lenguaje puedo meter en un segundo? La distribución se ve así:

Esto es increíble. Traigamos de nuevo algunas de las conclusiones que habíamos sacado a la mezcla para analizar esta última.

  • La tendencia en la densidad lírica aumenta con el tiempo y los álbumes.
  • Recuerdan que el número de palabras mostraba la misma tendencia? Bueno, son linealmente dependientes… la correlación debe estar por el techo. Aunque, la cosa interesante está en que la densidad léxica tiene el efecto inverso: con el tiempo Jorge escribió letras menos densas de contenido, pero cantó más rápido. Mientras más fáciles se pusieron sus letras, más rápido las cantó. ¿Será este el caso?

¿Qué sucede ahora cuando las gráficamos enfrentadas?

Chequeando los outliers en este pequeño gráfico, podemos ver que:

  • Como dijimos antes, canciones como Movimiento, La luna de Rasquí, Guitarra y vos y Pongamos que hablo de Martínez llevan una gran densidad lírica mientras que una relativamente media densidad léxica. Esto significa que escupen muchas palabras por segundo (¡más de 1.4 palabras por segundo!) mientras que en esas palabras no hay una cantidad inusual de contenido: no son ni fáciles ni complicadas a la hora de entenderlas.
  • Gege, Me haces bien y Macarena y el espejo son canciones que llevan un montón de significado en sus palabras, pero son cantadas bastante lentas.
  • Aquiles, por su talón es Aquiles y Sea son cantadas lentamente y no llevan una tasa de contenido tan alta. Básicamente son las canciones más fáciles de entender en el catálogo de Drexler.
Podrá no ser una canción especialmente dificil de comprender, pero ciertamente es dificil no disfrutarla ❤

Sentiment analysis

Aquí nos encontramos con algo un poco más jugoso que solo contar palabras. Sentiment analysis, de acuerdo con Wikipedia, en el uso de procesamiento de lenguaje natural, análisis de textos, linguística computacional y biométrica para sistemáticamente identificar, extraer, cuantificar y estudiar estados afectivos e información subjetiva.

En este caso, utilicé un par de recursos realmente muy buenos. Primero que nada, NRC Word-Emotion Association Lexicon (aka EmoLex).
 
El NRC Emotion Lexicon es una lista de palabras en inglés con sus asociaciones con ocho emociones básicas (enojo, miedo, anhelo, confianza, sorpresa, tristeza, alegría y disgusto) y dos sentimientos (positivo y negativo). Las asociaciones se hicieron manualmente con crowdsourcing.
El problema obvio con esto, por lo menos para mí, es que las letras de Jorge no están en inglés. EmoLex tiene publicado también el lexicon traducido a más de 100 lenguajes automáticamente con Google Translate.
Esto definitivamente no es 100% preciso y va a restarle exactitud a mis resultados, pero terminó siendo lo suficientemente bueno como para obtener un par de conclusiones interesantes. Idealmente, tendría un equipo de personas con ganas de hacer crowdsourcing para asociar palabras en español… tal vez la próxima vez :)

py-lex es una gran librería de Python para parsear a través de este lexicon.

Chequeando todas las emociones presentes en las canciones y agregando por suma, llegué a esta visualización la cual refiere a la primera y más obvia pregunta: ¿cómo se sienten las canciones de Jorge?

Las canciones de Jorge muestran mucho anhelo y tristeza. Esto se puede ver como afán, excitación, anticipación, melancolía, pena, dolor, desolación o simplemente tristeza. Sin ninguna sorpresa para cualquiera que haya escuchado su música, las canciones muestran muy poco enojo y disgusto.

Con respecto a sentimientos, sus canciones son más positivas que negativas.

Revisemos cuáles son las palabras que más disparan cada una de las emociones y los sentimientos.

  • Madre aparece en confianza, alegría y anhelo. Está marcada como positiva y negativa al mismo tiempo.
  • Sol aparece relacionada con emociones positivas: sorpresa, confianza, alegría y anhelo. Solo se marca como sentimiento positivo.
  • Pena aparece en emociones negativas: miedo, tristeza, enojo y está marcado como sentimiento negativo.

¿Cómo se distribuyen las emociones en los álbumes? ¿Cuál es el disco más triste y cuál el de mayor anhelo?

  • Su album más triste es Vaivén, de 1996. Yo estaba bastante seguro que era 12 segundos de oscuridad, en verdad… por lo menos es el que me gusta escuchar cuando yo estoy triste.
    Drexler grabó este album en España, mentoreado por la leyenda de la música andaluza Joaquín Sabina, mientras tomaba un riesgo al dedicarse full-time a la música dejando atrás la práctica de medicina. ¿A lo mejor añoraba volver a casa?
  • El anhelo en Frontera, de 1997, y su último Salvavidas de hielo (2017) son los más altos.

Revisemos en un gráfico distinto cómo todo esto evolucionó con los años.

  • Se puede afirmar, con bastante seguridad, que excepto por el pequeño traspie en 12 segundos de oscuridad, Jorge se puso menos triste con los años. Creó la mayoría de las canciones de ese álbum mientras estaba en Cabo Polonio, un hermoso pedazo de Tierra ubicado en Uruguay sin electricidad y con un profundo y estrellado cielo nocturno. 12 segundos de oscuridad hace referencia al faro que barre el pueblo cada 12 segundos, interrumpiendo la oscuridad periódicamente. Se recluyó allí como un medio para sanar luego de la separación con su ex mujer. Escuchando canciones como Soledad o Sanar, se puede sentir al cantante llegar a términos con el hecho de que ahora se encuentra solo, y que el tiempo va a curar su corazón roto. Esa es tal vez la razón por la cual la confianza tiene un pico en este álbum: a pesar de que está triste, tiene confianza en el hecho de que las cosas estarán mejor.
“Ya pasó, ya he dejado que se empañe / la ilusión de que vivir es indoloro” ¡Ay, Jorge! ¡Directo al corazón!
  • Su alegría, no obstante, tuvo un pico en Eco y nunca se recuperó de la bajada.
  • Hay máximos de enojo en Vaivén y 12 segundos de oscuridad. Sus discos más tristes.
  • Las emociones negativas (enojo, tristeza, disgusto y miedo) parecerían tener algún tipo de correlación. Investiguemos más profundo.

Para revisar la correlación usé la herramienta pairplot de Seaborn y calculé el Coeficiente de Correlación de Pearson para cada par de variables, una medida de correlación entre dos variables X e Y. Su rango va entre +1 y -1, donde 1 es correlación linear positiva total, 0 es no correlación linear y -1 es total correlación linear negativa.

ρ = 0.62 y ρ=0.55 son un grado de correlación lo suficientemente alto como para tener en cuenta.

Como sospeché, la tristeza y el enojo están fuertemente correlacionadas. También el enojo y el disgusto.

Grafiquemos las curvas de emoción vs. tiempo de nuevo, pero esta vez solo las correlacionadas.

En efecto, con las canciones de Jorge, es bastante preciso afirmar que la tristeza viene de la mano con su dosis de enojo y disgusto.

Ahora, vayamos directo a sentimientos negativos vs. positivos.

Considero seguro afirmar de nuevo, en este punto, que Jorge es un tipo más positivo que negativo.

  • Su pico de positividad está en Frontera (1999) y su pico de negatividad pasa tres años antes en Vaivén (1996).
  • Mínimo global de positividad en Amar la trama (2010).
  • Su mínimo para negatividad sucede tanto al principio como al final de su carrera (ok, no el final… esperemos que nunca deje de hacer música hermosa)
  • Álbumes más negativos que positivos: Vaivén (1996), 12 segundos de oscuridad (2006) y Amar la trama (2010).

Análisis musical

Usando la Web Spotify API pude extraer features musicales para cada una de las canciones.
Para ver una descripción detallada de cada una de las features, clickeen aquí. Necesito hacer un disclaimer antes de proceder, no obstante: todos esos features son calculados usando técnicas de procesamiento de señales o machine learning. Está todo automatizado, así que está lejos de ser 100% preciso. Hice un pequeño pre-análisis chequeando los valores únicos y posibles outliers e identifiqué algunos pequeños errores, como Asilo figurando en un compás de 5/4 o La plegaria del paparazzo con un tempo de 192 cuando en realidad Asilo está en 3/4 y el tempo de la segunda canción vale la mitad.

Jorge usa dos tipos de compases. Los que se dividen en 3 golpes y los que se dividen en 4. Muy probablemente sean 3/4 y 4/4 casi todos, pero la API de Spotify no me provee con el denominador del compás; de manera que no hay manera de saber cuánto vale la nota equivalente a un golpe. (En realidad sí hay, pero involucra revisar canción por canción con un buen oído y conocimiento de teoría musical).

Eco definitivamente es un antes y después en la distribución de compases.
  • Encontrarán una canción ternaria en cada uno de los discos excepto Eco.
  • Antes de Eco todos los álbumes contenían por lo menos 2 canciones en 3/4 o algún otro compás ternario.
  • Después de Eco todos los álbumes contienen una sola canción de esas.

El tempo medio es de 121 bpm. Durante de Sea es la canción más rápida de Jorge con un tempo veloz de 178 bpm. Su más lenta es Hermana Duda de 12 segundos de oscuridad, con un tempo de 64 bpm.

Lenta pero segura

Veamos cómo está distribuido el tempo entre sus álbumes.

  • Discó más rápido por mucho: Sea de 2001. Este disco tiene los temás más enérgicos.
  • Todo el resto se ve bastante parecido. Se distribuyen alrededor de 120 bpm con algunas baladas a tempo bajo distribuidas en cada uno de los álbumes.

Traigamos algunas conclusiones e insights pasadas para combinarlas con nuestro próximo análisis.

¿Recuerdan lo siguiente? La tendencia en densidad lírica subió con los discos y el tiempo, Jorge canta cada vez más rápido. La cantidad de palabras también, ya que estaba correlacionada con la densidad lírica. La densidad léxica, por otro lado, tenía el efecto contrario: con el tiempo Jorge escribía menos denso en contenido, sus letras se volvían más fáciles de comprender.

Ahora, la duración de las canciones ha decrecido constantemente con los años.

¡Con el tiempo, las canciones se volvieron más cortas y las letras más largas!

Además, mientras más rápido él canta, más cortás se vuelven las canciones y más fáciles de entender se vuelven.

En teoría musical, la tonalidad o clave de una pieza es el grupo de notas o escalas que forman la base de una composición musical en la música clásica o popular occidental.

El grupo tiene una nota tónica y sus correspondientes acordes, también llamada la tónica o acorde tónico, que provee un sentimiento subjetivo de arribo y descanso, y que además tiene una relación única con las otras notas del mismo grupo, sus correspondientes acordes, y las notas y acordes por fuera del grupo.

  • Algunas tonalidades nunca han sido tocadas en sus álbumes. Eb y Ebm, G# y G#m, Bbm, son todas tonalidades que no son particularmente cómodas para lidiar en guitarra.
  • Por otro lado, G y A son las más populares. También E, D y C. Las cinco son super amigables para guitarristas.

Sí, lo adivinaron. Miremos la distribución de tonalidades en los álbumes.

  • Frontera es el álbum más monótono tonalmente. Solo hay 4 tonalidades. Cuatro canciones en G, cuatro en D, dos en A y una en F. Este es fácilmente el álbum más accesible para el guitarrista.
  • Eco casi nunca repite tonalidades, excepto por dos canciones en D (Guitarra y vos & Transporte). Raramente, ninguna de esas canciones está en G: la tonalidad preferida de Jorge.
  • El resto de los álbumes están bastante balanceados.

De acuerdo con nuestros amigos de Spotify, valence (“valencia”) es una medida entre 0.0 y 1.0 describiendo la positividad musical que lleva un track. Los tracks con mayor valence suenan más positivos (ej. felices, alegres, eufóricos), mientras que los tracks con menor valence suenan más negativos (ej. tristes, deprimentes, enojados).

Entonces, ahora probemos analizar la alegría y tristeza puramente desde el lado musical.

Ahí lo tenés, esos son los 5 temas más felices musicalmente.

Un lugar en tu almohada, Mandato y Horas son las 3 canciones que suenan más felices.

En el otro lado del ring, estas son las 5 canciones más tristes musicalmente hablando.

12 segundos de oscuridad, Llueve y Organdí son las tres canciones que suenan más tristes.

Los corazones explotan de alegría

Ahora, probemos algo más interesante. Para terminar este largo análisis, hagamos que la música y la letra se encuentren.

En este increíble artículo, RCharlie crea una medida llamada gloom_index (algo así como “índice de oscuridad”) que las combina perfectamente y descubre cuál es el tema más deprimente de Radiohead. Les recomiendo muchísimo leerlo.

Valence es la valencia de Spotify, sadness_per es el porcentaje de tristeza en cada canción (que podemos calcular desde la tristeza en NRC) y Ly_d es la densidad lírica.

¡Hagamos lo mismo para las canciones de Drexler! Para que se entienda mejor, cambié la escala para que vaya entre 0 y 100.

Ahí lo tienen, cuando se combinan música y letra, 12 segundos de oscuridad es el tema más deprimente de Jorge.

¡Un lugar en tu almohada, Bienvenida y Don de fluir son los más alegres!

Oscuro, ¿verdad?

Y ahora, para el gran final, veamos como el gloom_index se comporta en cada álbum.

Aquí los tienen, rankeados

Contra toda probabilidad, ¡el disco más oscuro es Llueve!

Los más felices son Eco y Sea, así que ya saben qué escuchar cuando quieran levantar los ánimos.

Conclusiones

Jorge ya lo dijo en La noche no es una ciencia: “hacer canciones no es una ciencia exacta”. Bueno, analizarlas tampoco lo es. 
Mientras que este estudio es extensivo, en algunos lugares le falta rigor científico. Que esta lista no comprehensiva sirva como disclaimer/disculpas:

  • Las medidas de Spotify en cuanto a features musicales no son siempre exactas.
  • Contar palabras está condicionado a la noble persona que las transcribió en Genius. Un criterio debería ser establecido si buscamos precisión. ¿Contamos la repetición de estribillos? ¿Qué sucede si el transcriptor era vago y no copió el último estribillo tantas veces como aparecía? ¿Si una palabra se repite muchísimas veces en una canción (como “tiempo” en Estalactitas) cuenta lo mismo que si aparece en más de una canción? ¿Cuentan las palabras que se cantan en los coros o en voces secundarias?
  • Las canciones en inglés no se tuvieron en cuenta, pero los covers sí a pesar de que Jorge no las escribió (como Disneylandia que originalmente fue escrita por Arnaldo Antunes).
  • El sentiment analysis se llevó a cabo sobre una base hecha no por trabajo humano sino por Google Translate.

A pesar de todo esto, definitivamente aprendí un montón sobre análisis de datos y todas sus caras B como generar visualizaciones desde código puro, crear y limpiar una base de datos y buenas prácticas para planificicación de proyectos.

También espero que este trabajo sirva para generar algunos nuevos fans de la música de Jorge. No es que los necesite (supongo que ya somos varios); ¡pero estoy seguro que su música puede traer más sonrisas a los días de más gente!

Le dedico este proyecto a él, como mi manera de decir gracias.

¡Muchas gracias!

Referencias:

Quantifying Sufjan Stevens with the Genius API and NLTK por Jonathan Evans

Text analysis in Pandas with some TF-IDF (again) por Jakub Nowacki

Everything in Its Right Place: Visualization and Content Analysis of Radiohead Lyrics por Myles Harrison

Data Visualization and Analysis of Taylor Swift’s Song Lyrics por Preetish Panda

fitteR happieR por Rcharlie