¿Organizaría una máquina la propuesta de gobierno de coalición igual que Unidas Podemos?

Rubén Díaz Grano de Oro
MásQueDATA
Published in
4 min readAug 21, 2019

Un análisis con técnicas de procesamiento de lenguaje natural

Rubén Díaz Grano de Oro@diazgranodeoro

A poco más de un mes para que acabe el plazo para la investidura de un presidente del Gobierno en España, Unidas Podemos ha enviado al PSOE un documento de 119 páginas para formar un gobierno de coalición entre los dos partidos de izquierdas.

El Partido Socialista ya ha rechazado este acuerdo, dividido en trece puntos de propuestas programáticas: uno de proposición de estructura de gobierno y otro con las funciones que tendría cada uno de los ministerios a los que aspiraría Unidas Podemos.

Pero, ¿se corresponde la división del texto de la formación morada con la importancia que dan a cada uno de los temas? ¿Cuáles son los aspectos a los que se da más énfasis en el documento? A través de técnicas de procesamiento de lenguaje natural intentaré responder a estas preguntas.

Para una primera aproximación, he representado las palabras que más se repiten en el documento en esta nube de palabras (puedes verla a tamaño completo aquí):

Como vemos, las palabras que más prevalencia tienen en el texto son “derechos” (que aparece 115 veces) , “personas” (87) y “ley” (81). Otras palabras como “servicios” (80), “social” (76), y “vivienda” (75)también se repiten con frecuencia en el texto.

Por otro lado, ¿son realmente necesarios quince apartados (trece programáticos y dos de estructura de gobierno) para explicar todas las propuestas? Para analizarlo, he utilizado cuatro métricas que indican el número óptimo de temas en los que se puede dividir un texto o un conjunto de textos. Se considera que el mejor número es aquel en el que se minimiza una de las métricas y se maximiza otra. Veamos los resultados.

Así, vemos que los puntos en los que coinciden una de las métricas de cada categoría son el 3 y el 4 (donde se minimizan lo calibrado por Cao Juan et al. 2009 y maximiza lo propuesto por Deveaud et al. 2014) Así pues, el número óptimo de temas serían tres o cuatro. El texto de Unidas Podemos se divide en tres subtítulos (Propuestas Programáticas, Propuestas de Estructura de Gobierno y Anexo: Detalle de Responsabilidades y Competencias), por lo que utilizaré tres categorías para compararlas con los tres subtítulos.

Pero, ¿son las categorías óptimas? Para comprobarlo he utilizado el método LDA (Latent Dirichlet Allocation), que puede ser usado para dividir el texto en las categorías indicadas y asignar cada línea del documento a una de ellas. Veamos cuáles son las palabras más frecuentes en cada uno de ellas:

No parece que haya ninguna relación entre cómo divide el texto el método LDA y como lo ha hecho Unidas Podemos. Atendiendo al gráfico, el tema 2 hablaría de políticas y propuestas relacionadas con el sistema público frente a las empresas privadas. El 3, por su parte, lo haría de medidas y propuestas relacionadas con el empleo, y mencionaría la brecha salarial (por ello incluye las palabras “mujeres”, “euros” y “tiempo”). El tema 1, por descarte, incluiría el resto del texto.

Así, el sistema LDA no habría dividido el texto en programa, estructura de gobierno y competencias, sino que agruparía esto en uno de los tres temas indicados (sistema público, empleo y otros).

También podemos usar el LDA para ver si dividiendo el texto en quince apartados, como lo ha hecho Unidas Podemos, llegaría a las mismas categorías (13 de propuestas programáticas, 1 de propuesta de estructura de gobierno y 1 de competencias). Miremos el resultado:

Al dividir el texto en quince temas no parece que aparezcan categorías claras. En este caso el método LDA no hubiera clasificado las propuestas del documento igual que lo ha hecho Unidas Podemos. Probablemente lo hubiera hecho de una forma bastante menos estructurada, o al menos eso parece observando esta clasificación.

En conclusión, ni con el número de categorías asignado por las métricas ni dividiendo el documento en quince puntos igual que la formación morada hubiéramos obtenido los mismos temas utilizando LDA. Una posible razón es que al algoritmo se le escapen patrones importantes para la formación morada y que priorice otros que no son imprescindibles para los autores del documento. Por lo tanto, parece que a la hora de organizar un texto las máquinas siguen comportándose en ocasiones de forma distinta a los humanos.

--

--

Rubén Díaz Grano de Oro
MásQueDATA

Tengo un papel que dice que soy periodista, y ahora analizo datos