Análisis de texto del debate #CaraACara

Nacho Alonso
3 min readDec 15, 2015

--

Anoche estuve viendo el debate de TVE que intentó moderar Manuel Campo Vidal, lo llamaron “Cara a Cara”.

A la izquierda (como no podía ser de otra forma) de la pantalla teníamos a Pedro Sánchez y a la derecha (la colocación estaba pensada, ¿no?) a Mariano Rajoy.

No me gusta entrar en temas de política, pero viendo el debate me surgió la idea de sacar un análisis de texto para ver qué palabras se repetían más a lo largo de las exposiciones de ambos candidatos.

He estado buscando la transcripción completa del debate, pero de momento no la encuentro. Lo mejor que he encontrado es esta transcripción de la propia página web de RTVE: http://www.rtve.es/alacarta/videos/especiales-informativos/debate-cara-cara/3407700/. Como podéis ver en el texto, no está completa, pero puede ser un buen punto de partida hasta que encuentre una completa (en cuyo caso, actualizaré este artículo).

Tomando la transcripción como texto plano, he hecho un análisis con R (https://www.r-project.org/) para ver la frecuencia de aparición de cada palabra. Primero he quitado las “stopwords”, es decir, palabras como preposiciones, determinantes, etc… (“que”, “la”, “el”, “los”, “de”, “y”, …) que no nos interesan y metería ruido.

El primer resultado ha sido este (con un máximo de 70 palabras):

Nube de palabras por frecuencia de aparición.

En la nube se ve que una de las palabras más usadas es “Usted”, seguido de “España” y “Rajoy”, y otras como “años”. Así que el siguiente paso ha sido quitar estas 4 palabras para ver en detalle el resto de términos más usados. El resultado ha sido este:

Nube de palabras b&n sin ordenar.

Dándole algo de color y orden, con las palabras que más aparecen en el centro:

Nube de palabras coloreada y ordenada.

Esta es una primera vuelta a los datos.

Entorno de trabajo

Estuve trabajando con IBM Watson Analytics https://twitter.com/nachoad/status/676523200973549569 con el que pude obtener rápidamente muchos resultados, sin apenas esfuerzo de programación:

Utilizando IBM Watson Analytics con hashtags como #CaraACaraL6 #Rajoy #Sanchez.

Sin embargo, este análisis de texto, está hecho en R. Utiliza el package “Text Mining” (https://cran.r-project.org/web/packages/tm/tm.pdf).

RStudio.

Futuras acciones

Tengo en mente hacer otros análisis con el texto. Por ejemplo sería interesante poder separar lo que dijo cada candidato. Agrupar temas como “Terrorismo”, “Paro”, “Cataluña”, “Sanidad”, “Impuestos”, “Senado”, etc…

Si tengo tiempo, actualizaré este artículo con más datos de este tipo.

Se aceptan todo tipo de quejas, comentarios, etc…

— Nacho

--

--

Nacho Alonso

👉 Artículo nuevo los domingos 🚀 ••• IT Architect • Python 🐍 • Cloud & HybridCloud • Analytics • Restless ••• ialonso.es