MEM2018: Motivación del proyecto y metodología

Este proyecto pretende ser una respuesta a las recientes agresiones que han sufrido, en términos de manipulación de la información, los procesos electorales a través del mundo. El apoyo que un misterioso ejercito de bots en Twitter brindó a la campaña de Trump, así como el manejo de la opinión publica en las campañas electorales de Francia el año pasado, constituyen dos claros ejemplos de como la democracia puede ser corrompida a través de la manipulación de la información. Nuestra opinión es que el actual proceso electoral en México si bien pudiera no estar influenciado por exactamente estas mismas organizaciones, si corre el riesgo de ser víctima de ataques similares. Lo cierto es que la opinión pública está determinada mas que nada por el criterio de la mayoría. Siendo un sistema complejo es altamente sensible al contexto informativo, y en particular al contenido de las redes sociales. Y claro está, si nuestra opinion y la de nuestros cercanos es manipulada, no seremos capaces de elegir libremente nuestro destino como sociedad.

Todos compran bots

Nuestra premisa es que todas las personas que buscan captar la atención de internet en estos días compran lo que son llamados bots, nuestros candidatos presidenciales (y sus asesores de campaña) en su afán de ganar la carrera electoral no se escapan de esto. En nuestro contexto político/electoral un bot es un usuario ficticio de una red social que aunque esté manejado por personas/algoritmos, no representa un humano real, y que sólo ha sido creado para lograr algunos de los siguientes propósitos:

  • Aumentar las métricas de las cuentas sociales: en estos tiempos es importantes tener mas seguidores en Twitter y más “me gusta” en Facebook que tus competidores. Las marcas invierten cada vez más en esto. Son assets importantes para la opinión publica.
  • Promover contenido: estos usuario puede ser usados para compartir contenido de los candidatos y simular que este contenido ha tenido más impacto en la opinión pública de lo normal.
  • Simular falsas realidades: Una granja de bots puede crear una realidad ficticia alrededor de un suceso o personalidad al compartir noticias falsas. Estas llegan a incluso apuntar a sitios web de periódicos digitales inexistentes, y son luego compartidas en redes sociales con contenido colateral que soporte la noticia falsa (comentarios, noticias reales tergiversadas, etc).

Uno podría pensar que no vale la pena prestarle mucha atención atención a esto, pero el mejor ejemplo fueron las noticias falsas en contra de Hillary Clinton promovidas por bots en la reciente campa de EU. Y ya sabemos como acabo la elección. También alguien podría argumentar que la política en México no esta tan “tecnologizada” aún. Pero todos hemos oído hablar de las indagaciones de Cambridge Analytica por nuestras latitudes. Por otro lado, una simple investigación sobre el público (o seguidores) de los candidatos a las próximas elecciones del mes de julio nos arrojan algo de luz sobre que está pasando.

Es en Facebook donde el público es más influenciable, pero es complicado trabajar con la plataforma. Así que Twitter es en donde se mueve la mayor parte del contenido político y donde los bots actúan de manera más ferviente. Para nuestro ejemplo tomemos por ejemplo un subconjunto significativo aleatorio de los seguidores en Twitter de cada uno de los candidatos, y hagamos un histograma de frecuencia sobre la fecha de creación de estos perfiles. En este caso particular intentamos que estos subconjuntos fueran de al menos el 20% del volumen total de seguidores.

Histograma de frecuencia de la antigüedad de las fechas de creación de los perfiles que siguen a los candidatos.

Notemos como hay una tendencia clara de crecimiento en la distribución de las fechas de creación de los seguidores en los últimos cuatro meses (estos datos son del mes de enero del 2018): esto quiere decir que la mayoría de los usuarios fueron creados hace menos de 150 días. En el caso de Anaya, la tendencia empezó desde finales de octubre. Para esto pueden haber dos explicaciones:

  • Explicación 1: Muchos mexicanos que no tenían cuentas de Twitter se hicieron una para seguir a los candidatos, estar actualizados de su contenido y mostrar su apoyo.
  • Explicación 2: Los equipos de campaña empezaron a pagar por cuentas falsas (bots) para que los siguieran, aumentar su número de seguidores y tal vez, en el momento indicado, propulsar su presencia en la red a través de retweets de una noticia falsa o un hashtag en contra de sus oponentes.

Nota: Solo como comentario colateral, esta es la forma de crear un trending topic, muchos usuarios compartiendo un hashtag simultáneamente. Me pregunto cuanto estaría dispuesto a pagar un equipo de campaña por un trending topic.

Supongamos entonces que la Explicación 1 es la correcta: es totalmente natural este comportamiento de los nuevos seguidores. Examinemos con detalle algunos de los perfiles creados mas recientemente de algún candidato, por ejemplo de AMLO.

Perfiles que siguen a AMLO y han sido creados mas recientemente

Entrando a ver el perfil del primer usuario de la lista: @nikichristens14, vemos que su perfil está casi en blanco, solo sigue a 30 personas y fue creado en diciembre del 2017

Perfil ejemplo de los recientes seguidores de AMLO

Siguiendo con la lista de perfiles de más arriba casi todos los resultados son similares. Uno podría pensar que el candidato de Morena es el único que sigue estas prácticas, o que tuvimos mala suerte al dar con los seguidores equivocados, pero puesto que fue una selección totalmente aleatoria esto tiene muy poca probabilidad. De hecho esta probabilidad es bastante chica teniendo en cuenta que AMLO tiene casi 4 millones de seguidores, y teniendo en cuenta que su cuenta es la mas antigua entre todos los candidatos. Quién sabe que encontremos en el público de los demás candidatos.

Por otro lado, hay equipos de campaña que parecen se mas inexpertos en el negocio de manipular las métricas sociales. Uno puede encontrar trabajo bastante grotesco, como el siguiente.

Un post en Instagram con el hashtag #AnayistasAlFrente

Cómo funciona esto? Hay dos explicaciones principales también

  • Básicamente se crea un perfil que comparte contenido llamativo (erótico en este caso), así se consigue gran volumen de seguidores (masculinos en este caso) y luego se venden posts que incluyan hashtags relacionados con el mejor postor (en este caso los equipos de campaña). Se promete que dichos hashtags tendrán métricas destacadas (likes, comentarios positivos, etc), así en las herramientas de análisis de contenido social los hashtags del candidato “son destacados” y con buen engagement por ejemplo.
  • Lo anterior es una teoría. Este post en Instagram bien podría haber sido publicado por algún equipo de campaña competidor de Anaya en una “guerra sucia” que trata de manchar su imagen como candidato. Muy probable, ya conocemos la política.

No podemos saber la explicación correcta. Sin embargo lo que parece innegable es que TODOS los candidatos y su contenido social está contaminado con métricas falsas y contenido ficticio.

Nuestro propósito entonces, no es otro que diseñar e implementar un sistema de análisis de datos en tiempo real que nos permita determinar el contenido y el estado de opinión “libre de ruidos”, en redes sociales (siempre que sea posible), ignorando el contenido de las cuentas que nuestro sistema detecta como bots.

Metodología

Para cada una de las redes sociales que monitoreamos (Twitter, Instagram, Facebook) tenemos una “lista negra”. Esta lista negra es el resultado de la clasificación tanto manual, como de un algoritmo de inteligencia artificial que detecta (está en constante aprendizaje) los usuarios “sospechosos” para nuestros propósitos.

Los bots políticos casi siempre tienen patrones de comportamiento muy claros:

  • Se manifiestan de manera radical.
  • Envían mensajes muy repetitivos. A veces el texto de cada uno de sus posts es muy similar.
  • Comparten contenido de otros bots o del perfil que quieren promocionar.
  • Siguen o son seguidos por otros bots.

Monitoreando a los usuarios que tienen una conversación muy local uno puede identificar “colmenas” de perfiles falsos que promueven contenido muy especifico. En nuestra experiencia estos clusters son “lugares eficientes de la red donde buscar bots”. Como un ejemplo ilustrativo, así se ve la conversación del 5 de abril del 2018 en Twitter. Uno puede notar los cluster de interacción entre usuarios

Red de la conversación en Twitter del 5 de abril alrededor de Jose A Meade. El contenido destacado estaba relacionado con la orden de Trump de mover tropas a la frontera mexicana.

Una vez detectado un cluster de perfiles que interactúan de manera sospechosa entre ellos y con el contenido de algún candidato, pasamos a extraer las características principales de su perfil como son

  • Estadísticas principales: a cuántos usuarios sigue, y cuántos lo siguen. Si tiene foto y biografía en su perfil. Si sale una persona en su foto de perfil. Cuán repetitivo es el texto en sus posts. Cuántos posts, imágenes y videos tiene. Cuántos hashtags comparte. Con cuántas personas interactúa en sus posts. Con quién… etc.
  • Estadísticas de segundo orden: tiempos de posteo y períodos entre posts. Correlaciones entre sus estadísticas principales de arriba. Propiedades topológicas de la red de su conversación. Entre otros.

Luego, con nuestros algoritmos de aprendizaje decidimos si dadas estas características son agregados a la lista negra o no. De esta forma evitamos contaminar nuestras bases de datos con contenido ficticio diseñados por los manipuladores de información.

Conclusión

Como es común siempre existen detractores a este tipo de técnicas automatizadas para curar la información valiosa. Que un algoritmo decida a que le tenemos que prestar atención y que debemos creer, puede escalar la discusión a umbrales incluso filosóficos. Alguien con conocimientos técnicos podría incluso argumentar que nuestro algoritmo “puede ser engañado” para que le preste más atención a los bots. Nuestra apuesta es que para que esto suceda los procedimientos de creación de granjas de bots y los algoritmos de manipulación masiva de contenido en redes sociales deben reformularse. Los quipos detrás de estas orquestaciones han cambiar sus estrategias también. Esto involucra investigación, recursos y tiempo, un tiempo que no abunda puesto que las elecciones son en un par de meses.

Lo cierto es que hemos hecho nuestro mejor esfuerzo por crear una plataforma que pueda ser usada para obtener información fidedigna y lo más valiosa posible sobre el proceso electoral mexicano de este año 2018. Esperamos que nuestras buenas intenciones sirvan de algún provecho.