Cómo detectar noticias falsas en tiempo real

NewCo Shift MX

Published in

NewCo Shift MX

11 min readAug 30, 2017

Por Krishna Bharat

** Nota publicada originalmente en NewCo Shift **

Lo suficientemente rápido como para empoderar a los seres humanos para que tomen medidas

Los sistemas de monitoreo de tsunamis en tiempo real de DART, ubicados a miles de kilómetros de la costa, ayudan a pronosticar tsunamis antes de que se conviertan en una amenaza. (Imagen: Centro de NOAA para la Investigación del Tsunami)

En noviembre pasado, un amigo me contó acerca de su extensa familia de filipinos-americanos en el área de Fresno. En cuestión de días pasaron de sentirse en conflicto con la candidatura de Trump a votar por él en masa. Ellos son católicos, y una vez que escucharon que el Papa había respaldado a Trump, sus opiniones cambiaron. Por supuesto, este apoyo papal no sucedió realmente. Este es un ejemplo de una falsa ola de noticias que se volvió viral y engañó a millones.

Aquí está la misma historia en un post de Facebook, compartido por el grupo North Carolina For Donald Trump. Ellos tienen 65 mil seguidores, y se puede ver cómo el hecho de ser compartido por decenas de grupos influyentes puede difundir esto a millones.

En la misma línea, un sitio llamado winningdemocrats.com publicó una broma de que Irlanda estaba aceptando oficialmente “refugiados de Trump”, que también tuvo mucha circulación. Este es un problema bipartito. El periodismo es un trabajo duro. Las noticias falsas para generar influencia y obtener beneficio son demasiado fáciles. Aquí hay más ejemplos.

Esto me hizo preguntarme qué podrían haber hecho Facebook y otras plataformas para detectar estas olas de desinformación en tiempo real. ¿Podrían haber tomado medidas al respecto? Si se detecta a tiempo, ¿podrían haber desacelerado la propagación o haberlas marcado como noticias poco fiables?

Las plataformas deben actuar

Como muchos han señalado, etiquetar a las noticias falsas sería mejor a nivel de las principales plataformas — Facebook, Twitter, Google, Microsoft, Yahoo y Apple. Ellos controlan las arterias a través de las cuales fluye la mayor parte de la información fresca y la influencia del mundo. Están mejor posicionados para ver la formación de desinformación. Sus equipos de ingeniería tienen las habilidades técnicas para detectarlo y los botones necesarios para responder a ello.

Tanto las redes sociales como los motores de búsqueda cuentan con mecanismos de ingeniería (piense en la flexibilidad en el ranking) y elementos de producto para reducir la exposición, marcar como falsas o detener completamente las olas de desinformación. Ellos podrían tomar decisiones individualmente en función de la gravedad del problema y de cómo su organización hace un balance de la exactitud de la información y la libertad del autor. La Búsqueda de Google se centra en el acceso a la información. Facebook se ve a sí mismo como un facilitador de la expresión. Ellos pueden resolver las cosas de manera diferente.

Nuestro enfoque se centrará menos en la prohibición de la desinformación, y más en la aparición de perspectivas adicionales e información, incluyendo que inspectores rápidos puedan hacer una disputa de la precisión de un artículo. — Mark Zuckerberg

En este artículo prefiero no entrar en la política, y me gustaría centrarme en la detección en lugar de abogar por una respuesta específica. No importa cuál sea tu respuesta, si puedes detectar noticias falsas en tiempo real, puedes hacer algo al respecto.

La detección en tiempo real, en este contexto, no significa segundos. Puede ser innecesario tomar medidas si no se propaga. En la práctica, la respuesta rápida podría significar minutos u horas. Tiempo suficiente para que un algoritmo detecte una ola de noticias que parezca sospechosa y esté tomando impulso, potencialmente de múltiples fuentes. También, una gran ventana para recolectar la evidencia y tenerla para ser considerada por seres humanos que puedan elegir detener la ola antes de que esta se convierta en un tsunami.

Sé una cosa o dos acerca de los algoritmos de procesamiento de noticias. Construí Google Noticias y lo operé por muchos años. Es mi creencia que la detección es tratable.

También sé que probablemente no es una buena idea ejecutar solamente las contramedidas a corto plazo basadas únicamente en lo que dice el algoritmo. Es importante poner a los seres humanos dentro del ciclo — tanto para la rendición de cuentas corporativas como para servir de comprobación — . En particular, un árbitro humano sería capaz de hacer verificación proactiva de los hechos. En el ejemplo anterior, el representante de Facebook o Twitter podría haber llamado a la oficina de prensa de la Santa Sede y determinado que la historia es falsa. Si no hay una persona patente para llamar, se podría consultar con las principales fuentes de noticias y sitios de verificación de hechos para obtener su lectura sobre la situación.

Habrá casos ambiguos y situaciones donde la verificación sea elusiva. Los árbitros humanos pueden decidir esperar y vigilar la ola durante un tiempo antes de que intervengan. Con el tiempo, un sistema de aprendizaje automático podría aprender de los resultados, comenzar a utilizar más pruebas y entrenarse para ser más inteligente.

¿Qué es una ola? Una ola en mi lenguaje es un conjunto de artículos que hacen la misma afirmación nueva (y posiblemente errónea), además de los mensajes asociados en redes sociales. Una ola es significativa si está incrementando su engagement (interacción). Dado que el costo de la intervención humana es alto, sólo tiene sentido marcar las olas significativas que tengan indicios que sugieren desinformación.

El objetivo del algoritmo de detección es marcar las olas sospechosas antes de que atraviesen un umbral de exposición, de modo que los respondedores humanos puedan hacer algo al respecto.

Para hacer esto concreto: Digamos que una plataforma de medios sociales ha decidido que quiere detectar completamente las noticias falsas antes de que se alcancen los 10 mil compartidos. Para lograr esto, tal vez deseen que la ola se marque desde los mil compartidos, de modo que los evaluadores humanos tengan tiempo para estudiarla y responder. Para el motor de búsqueda, podrían contarse consultas y clics en lugar de compartidos y los umbrales podrían ser mayores, pero la lógica general es la misma.

Detección Algorítmica

Para detectar el comportamiento anómalo tenemos que mirar por debajo de la superficie y ver lo que no está sucediendo. Esto, a partir de una historia de Sherlock Holmes que captura la esencia de nuestra estrategia.

Gregory (Detective de Scotland Yard): “¿Hay algún otro punto en el que deseas que ponga mi atención?
Sherlock Holmes: “Al incidente curioso del perro en la noche.”
Gregory: “El perro no hizo nada en la noche.”
Sherlock Holmes: “Ese fue el curioso incidente”.
— La aventura de Silver Blaze, Arthur Conan Doyle

Lo que hace que la detección de noticias falsas sea factible es que las plataformas pueden observar artículos y publicaciones, no solo aisladas, sino en el contexto de todo lo que se está diciendo sobre ese tema en tiempo real. Este contexto ampliado y oportuno hace toda la diferencia.

Tomemos la historia de “el Papa respalda a Trump”.

Si eres un usuario promedio de Facebook y el artículo te lo compartió un amigo, podrías no tener razón alguna para no creerlo. Tenemos un verdadero sesgo que nos hace querer creer en las cosas que se escriben en un formato de periódico, especialmente si están respaldadas por alguien que conoces. Por consiguiente, el auge de los sitios de noticias falsas recién acuñados que están intentando aparentar ser legítimos. Algunos hechos por adolescentes macedonios, con fines de lucro, o por profesionales políticos o actores extranjeros que buscan influir en las elecciones. A medida que son etiquetados e incluidos en listas negras, nuevos sitios se están creando por necesidad.

Un escéptico preguntaría: ¿Qué tan probable es que endingthefed.com, una fuente relativamente oscura, sea uno de los primeros en reportar una historia sobre el Papa apoyando a Trump, mientras fuentes establecidas como el New York Times, el Washington Post, la BBC, Fox News , CNN, etc. e incluso el Servicio de Noticias del Vaticano, no tienen nada que decir al respecto? Eso parecería poco natural. Sería aún más sospechoso si el conjunto de sitios de noticias hablando de esto son todas páginas registradas recientemente o que tienen un historial de noticias falsas en ejecución. Esta es la lógica que vamos a emplear, pero con cierta automatización.

Para hacer esto a escala, un algoritmo vería todos los artículos recientes (de fuentes conocidas y oscuras) que han estado recibiendo algo de movimiento en las últimas 6 a 12 horas en una red social o motor de búsqueda en particular. Para limitar el alcance, podríamos requerir una coincidencia con algunos términos de activación (por ejemplo, nombres de políticos o temas polémicos) o categorías de noticias (por ejemplo, política, crimen, inmigración). Esto reduciría el conjunto a alrededor de 10 mil artículos. Estos pueden ser analizados y agrupados en bloques de historias, basados en rasgos comunes — palabras clave significativas, fechas, comillas, frases, etc. Nada de esto es técnicamente complejo. Los científicos informáticos han estado haciendo esto durante décadas y lo llaman “document clustering” (agrupación de documentos).

Artículos que aterricen en bloques de historias dados estarían hablando del misma tema. Esta técnica se ha utilizado con éxito en Google News y Bing News, para agrupar artículos por historia y comparar la actividad editorial entre historias. Si dos fuentes diferentes mencionan “Papa” y “Trump” y alguna variante del término “respaldo” dentro de una ventana de tiempo corto, entonces sus artículos terminarán en el mismo bloque. Esto esencialmente nos ayuda a captar la cobertura completa de una historia, a través de varias fuentes de noticias. Agrega el contexto social, por ejemplo, las publicaciones que se refieren a estos artículos, y tienes la ola completa. Más importante aún, esto nos permite averiguar de manera exhaustiva qué fuentes y autores están propagando estas noticias y cuáles no.

Para evaluar si la ola debería ser señalada como sospechosa, el algoritmo necesitará mirar los rasgos tanto del grupo de historias como de la nube de redes sociales que lo rodea. Específicamente:

1. ¿Es la ola en un tema que está políticamente cargado? ¿Concuerda con un conjunto de palabras clave clickeables que parecen atraer el diálogo partidista?

2. ¿El engagement crece rápidamente? ¿Cuántas vistas o acciones por hora?

3. ¿Contiene fuentes de recién creación o fuentes con dominios que han sido transferidos?

4. ¿Existen fuentes con un historial de periodismo creíble? ¿Cuál es la proporción entre la producción de noticias y las banderas rojas?

5. ¿Hay fuentes cuestionables en la ola

(A) Fuentes marcadas como sitios de noticias falsas por sitios de comprobación de hechos (por ejemplo, Snopes, Politifact)

(B) Fuentes frecuentemente co-citadas en feeds sociales con conocidas fuentes de noticias falsas.

6. ¿Está siendo compartida por los usuarios o aparece en foros que históricamente han enviado noticias falsas? ¿Está siendo propagado por trolls conocidos o teóricos de la conspiración?

7. ¿Hay sitios de noticias creíbles en el conjunto? A medida que pasa el tiempo se convierte en una señal poderosa. Una historia creciente que no es captada por fuentes creíbles es sospechosa.

8. ¿Algunos de los artículos han sido marcados como falsos por usuarios (creíbles)?

Cada uno de los puntos anteriores se puede evaluar por computadoras. No perfectamente, pero suficientemente bien como para servir de señal. Una lógica cuidadosamente construida puede combinar estas señales para producir una puntuación final que califique que tan sospecha es la ola.

Cuando una ola tiene los rasgos de una historia de noticia falsa, el algoritmo podría marcarlo para la atención humana, y potencialmente poner los frenos temporales en él. Esto ayudaría a ganar tiempo y asegurarse de que no se cruce la marca alta de, digamos, 10 mil compartidos o puntos de vista, mientras que la evaluación continúa en curso.

Con cada ola que sea evaluada por jueces humanos — y puede haber varias docenas al día — el sistema recibirá retroalimentación. Esto a su vez permite que los parámetros de la red algorítmica / neural sean ajustados y ayuden a extender el registro para fuentes, autores y foros. Incluso las olas que no puedan ser detenidas en el tiempo, pero que eventualmente resulten ser desinformación, podrían contribuir a mejorar el modelo. Con el tiempo esto debería hacer que la detección sea más precisa, reduciendo la incidencia de falsas alarmas en el proceso de señalización.

Libre expresión y abuso

Intercambiar la libre expresión por la seguridad es una pendiente resbaladiza e inevitablemente una mala idea.

Es importante que la vigilancia de noticias falsas por las plataformas suceda de una manera que sea a la vez defendible y transparente. Defendible, en el sentido de que expliquen lo que están manejando y cómo se ejecuta, y operen de una manera que el auditorio se sienta cómodo. Yo esperaría que apunten a las noticias falsas de manera estricta para abarcar sólo las afirmaciones fácticas que son demostrablemente erróneas. Deben evitar la opinión política o las reclamaciones que no pueden ser controladas. A las plataformas les gusta evitar la controversia y una definición estrecha y clara los mantendrá fuera de peligro.

En términos de transparencia, esperaría que todas las noticias que sean identificadas como falsas y se ralenticen o bloqueen sean reveladas públicamente. Ellos pueden optar por retrasar esto para evitar echarle la mano durante el ciclo de noticias, pero deberían revelar en un plazo razonable (digamos, 15 días) todas las noticias que fueron impactadas. Esto, por encima de todo, evitará el abuso por parte de la plataforma. Google, Facebook y otros tienen informes de transparencia que revelan las solicitudes de censura y vigilancia por parte de los gobiernos y la aplicación de la ley. Solo que es apropiado que ellos también sean transparentes acerca de las acciones que limitan la expresión.

Habiendo estado del otro lado de este problema, puedo pensar en las razones por las que los detalles del algoritmo de detección pueden necesitar ser mantenidos en secreto. Una plataforma, en una carrera decidida contra los falsos productores de noticias, puede encontrar que su estrategia deja de funcionar si se hace demasiado pública. Un compromiso sería documentar los detalles de la implementación y ponerlos a disposición para el escrutinio interno por (un panel de) empleados. También, para la auditoría de un ombudsman o abogados externos autorizados. Cuando se trata de fomentar la buena conducta empresarial los empleados son la primera línea de defensa. Son técnicamente capaces y provienen de todo el espectro político. Pueden confirmar que no hay sesgo político en la implementación.

El mayor desafío para detener las noticias falsas no es técnico. Es la voluntad operativa.

La escala y el éxito de nuestras mayores plataformas hicieron posible este asalto a gran escala a la verdad en primer lugar. También ellos están mejor posicionados para arreglarlo. Pueden configurar sensores, mover las palancas y aplastar noticias falsas al negarle tráfico e ingresos.

Mi preocupación es si el liderazgo en estas empresas reconoce el imperativo moral y tiene la voluntad de tomar esto a escala, invertir en la ingeniería que se necesita y actuar con la seriedad que merece. No porque estén siendo deshonestos y esto beneficie a sus negocios — creo genuinamente que no es un factor — sino porque pueden pensar que es demasiado difícil y no quieren ser tomados por responsables de errores o ‘metidas de pata’. No hay un imperativo comercial para hacer esto y puede haber acusaciones de parcialidad o censura, así que ¿porqué molestarse?

Si están dispuestos a ir más allá de esto y abordar el problema — y signos recientes sugieren que lo están haciendo (por ejemplo, Facebook pagando verificadores de hechos, los cambios de clasificación en Google) — Creo que sus usuarios y la prensa lo apreciarán y los apoyarán. Con transparencia y la respuesta correcta se puede hacer un inmenso bien a la sociedad y asegurar que las democracias funcionen correctamente. La alternativa es aterradora.

Nota de traducción: el artículo fue traducido por el equipo de NewCo Shift México con autorización de su autor.

Cómo detectar noticias falsas en tiempo real

Las plataformas deben actuar

Detección Algorítmica

Libre expresión y abuso

Written by NewCo Shift MX