Minería de perfiles políticos en Twitter

Outliers Collective
5 min readJan 17, 2015

El caso de PP, PSOE y Podemos

Mediante la ‘Minería de perfiles’ se revela que la audiencia activa de PP y PSOE son fundamentalmente políticos y militantes del propio partido. En cambio, para Podemos las profesiones son mucho más variadas y las afiliaciones no están asociadas solo a una identidad partidaria.

Según el CIS los votantes de Podemos no sólo son más internautas que los del PP y PSOE sino que además son más tuiteros (CIS, mayo-junio 2014). Desde Outliers Collective nos proponemos ir más allá y explorar cuáles son las profesiones y afiliaciones de la audiencia activa (retweeters) de estos tres partidos políticos en Twitter. Se utiliza para ello la ‘Minería de Perfiles’ como técnica para analizar las ‘bios’ de cada uno de los usuarios (entendidas como mecanismo común de asignación de la propia identidad digital).

Denominamos ‘minería de perfiles’ a la caracterización de usuarios de Twitter a partir de la extracción de categorías relevantes en función del texto presente en la ‘bio’ de Twitter.

En este trabajo partimos de dos categorías: ‘Profesión’ y ‘Afiliación’, y luego generamos sub-categorías para cada una de ellas. Para asociar las categorías a la ‘bio’ de cada usuario (p.ej: ‘Podemos’ con ‘Afiliación’ a ‘Partido’ + ‘Podemos’), se utilizan técnicas de Procesado del Lenguaje Natural. Específicamente construimos un diccionario a medida que detectamos cada ‘bio’ que observamos.

En este proceso se ha trabajado inicialmente sobre una muestra equivalente a un 10% del total de unos 30.000 usuarios iniciales. Luego se ha clasificado manualmente, para comparar y contrastar dicha categorización con el procesado de lenguaje automático, consiguiéndose una figura de mérito global de clasificación del 83%.

Se consideran las ‘bios’ de los usuarios de Twitter que hacen retweet a los partidos (audiencia activa), ya que en muchos casos un retweet simboliza la afinidad a un partido.

El conjunto de ‘bios’ corresponden a los usuarios que hicieron retweet de las cuentas asociadas a cada partido (PSOE, PP y Podemos), con un total de 5.424 retweets para PSOE, 23.502 para Podemos y 6.013 para PP. El mecanismo de recolección ha sido a través del acceso al API de Streaming de Twitter.

La captura de los tweets se realiza entre el 20 y 28 de noviembre de 2014, periodo en el cual ‘Podemos’ obtiene la intención de voto mayoritaria para las próximas elecciones generales (CIS, octubre 2014). Los datos se visualizan con Tableau Public.

La audiencia activa de PP y PSOE es mucho más homogénea que la de Podemos

Los resultados revelan que la audiencia activa de PSOE y PP es mucho más homogénea que la de Podemos en cuanto a las afiliaciones y profesiones detectadas. Así se visualiza en los treemaps que hemos realizado con Tableau Public. Por ejemplo, en la Figura 1 se observa que para el PSOE el 90,57% de la audiencia activa manifiesta afiliación a su partido, para PP el 75,07% y para Podemos tan solo el 18,73%, mostrando claramente que se trata de perfiles fuertemente diferenciados. Esto se corrobora además con el Coeficiente de Variación que se utiliza para medir la asimetría, más bajo en PP (2,60) y PSOE (2,46) respecto a Podemos (3,80). Asimismo, para alcanzar el 90% de la afiliación en Podemos, hay que sumar hasta 14 categorías. En el caso de Podemos además se observa una audiencia activa que manifiesta afiliación al PP con un 12,70% y al PSOE con un 3,81%.

Figura 1. La audiencia activa de Podemos en función de la afiliación. Fuente: Outliers Collective
Figura 2. La audiencia activa de PSOE en función de la afiliación. Fuente: Outliers Collective

En segundo lugar, en cuanto a ‘profesión’, la audiencia activa de PP y PSOE expresan en sus ‘bios’ como primera opción ‘político’ (PP:54,3%; PSOE: 33,15%) mientras que para Podemos ésta es la cuarta opción con un 6,49%, siendo ‘profesor’ con un 16,52% la primera. Dicho de otra manera, la audiencia activa de PP y PSOE está formada en gran medida por políticos, hecho que contrasta con la distribución de profesiones que expresa la audiencia de Podemos, más ligada a profesionales de todo tipo.

Figura 3. La audiencia activa de Podemos en función de profesión. Fuente: Outliers Collective
Figura 4. La audiencia activa de PP en función de la profesión. Fuente: Outliers Collective

Además de profundizar en la categorización actual (admitimos que pueden existir errores puntuales no relevantes), en futuros estudios se pretende incorporar el análisis de otras categorías, como ‘valores’ o ‘temas’, haciendo referencia a los relatos presentes en las comunidades. Es necesario pues profundizar en la ‘Minería de perfiles’, considerando por un lado algunas variables que podrían limitar la magnitud de los resultados, como la recurrencia de retweets desde un mismo usuario, los boots, el número de followers, etc., y por el otro incorporar otros colectivos y sectores al estudio.

Referencias

CIS (mayo-junio, 2014). Avance de resultados del estudio 3028 Postelectoral elecciones al Parlamento Europeo 2014. http://www.cis.es/cis/opencms/ES/NoticiasNovedades/InfoCIS/2014/Documentacion_3028.html

CIS (octubre, 2014). Barómetro de Octubre 2014. http://www.cis.es/cis/opencm/ES/1_encuestas/estudios/ver.jsp?estudio=14119

Outliers Collective (enero 2015). Minería de perfiles políticos en Twitter. El caso de PP, PSOE y Podemos.
https://public.tableausoftware.com/profile/outliers.collective#!/vizhome/MineradeperfilespolticosenTwitter_ElcasodePPPSOEyPodemos/podemosafiliacin

Créditos

Captura y análisis de datos
Óscar Marín
Álex González

Visualizaciones y estadística
Àngels Llorens

Diccionario y narrativa
Juan Linares

Agradecimientos

Yolanda Quintana

¿Ideas?¿Comentarios?: nos puedes citar desde Twitter

--

--

Outliers Collective

Outliers Collective helps you highlight data patterns in nowadays connected environment #OculusRift #WebGL #Threejs #D3js #NLP #Elasticsearch