Detección de Sesgos en Periódicos

Published in

Saturdays.AI

5 min readJun 28, 2024

La cumbre de Saturdays.AI en Asturias fue testigo de un proyecto innovador y necesario: la detección de sesgos en periódicos españoles. Este proyecto es muy impresionante e importante debido a la profundidad del análisis y la relevancia del tema abordado por el Grupo 4. Este artículo desglosa el proyecto presentado, explorando sus objetivos, metodología, resultados y futuros pasos.

Grupo 4 de Saturdays Asturias compuesto por: Alejandro, y resto del equipo.

¿Qué Son los Sesgos en Periódicos?

El sesgo en los periódicos se refiere a la tendencia de los medios de comunicación a presentar noticias e información de manera parcial, favoreciendo ciertas perspectivas, intereses políticos, ideologías o agendas. Esta parcialidad puede influir significativamente en la percepción pública y en la interpretación de los hechos. Los sesgos pueden manifestarse de diversas formas, incluyendo la selección de noticias, el lenguaje utilizado, la colocación de artículos y la cantidad de cobertura que se le da a un tema en particular.

Tipos Comunes de Sesgos

Sesgo de Confirmación: Los medios pueden favorecer historias que confirmen las creencias y expectativas preexistentes de su audiencia.
Sesgo de Omisión: Al dejar de reportar ciertos hechos o eventos, los medios pueden crear una percepción distorsionada de la realidad.
Sesgo de Selección de Fuentes: Utilizar solo ciertas fuentes que apoyen una perspectiva específica puede influir en la interpretación de los hechos.
Sesgo de Cobertura: Dar más cobertura a ciertos temas mientras se minimiza o ignora otros puede crear una percepción sesgada de su importancia.
Sesgo de Tono: El lenguaje y el tono utilizados para describir eventos o personajes pueden influir en la percepción pública.

El impacto de estos sesgos es significativo, ya que más del 80% de los lectores españoles afirman confiar en los periódicos que leen. Por lo tanto, es esencial entender y cuantificar estos sesgos para promover un consumo de noticias más informado y crítico.

El proyecto en cuestión: La Detección de Sesgos en Periódicos

El sesgo en los medios de comunicación es un fenómeno bien documentado que puede influir significativamente en la percepción pública. En España, un alto porcentaje de la población confía en los periódicos para informarse, lo que subraya la importancia de estudiar y comprender los sesgos presentes en estos medios. El proyecto del Grupo 4 se propuso precisamente eso: cuantificar y observar los sesgos en los artículos de la prensa digital española, utilizando técnicas avanzadas de análisis de datos.

La Recolección de Datos

Para llevar a cabo el estudio, se recopilaron más de 500,000 artículos de los periódicos más leídos en España, incluyendo El País, El Mundo, ABC, La Vanguardia y El Diario, entre otros. Tal y como expusieron los propios integrantes del grupo 4, este proceso presentó varios desafíos técnicos. Entre ellos, se hizo especial mención a la estructura cambiante de las webs, limitaciones de tasa y bloqueos de IP, que fueron superados mediante el uso de VPNs y tiempo computacional significativo.

La Transformación de los Datos

Una vez recopilados, los artículos fueron sometidos a un riguroso proceso de limpieza y preprocesamiento utilizando técnicas de Procesamiento de Lenguaje Natural (NLP) como la tokenización, lematización y eliminación de stopwords. Posteriormente, se emplearon algoritmos de Latent Dirichlet Allocation (LDA) para extraer las palabras más representativas, aunque los integrantes del grupo 4 mencionaron que este método era computacionalmente costoso.

El Análisis del Tono

Para evaluar el tono de los artículos, el grupo 4 llevó a cabo un etiquetado manual de más de 1800 párrafos, clasificándolos en tono negativo, neutral o positivo. Diversos clasificadores probabilísticos fueron entrenados sobre estos datos, incluyendo técnicas como Term Frequency-Inverse Document Frequency (TF-IDF) y n-gramas. Aunque la regresión logística presentó un accuracy del 61%, su capacidad para capturar adecuadamente las relaciones presentes en los datos fue limitada.

Los Modelos de Deep Learning

Dada la insuficiencia de los modelos tradicionales, el grupo 4 exploró modelos más complejos de redes neuronales, específicamente RNN, LSTM y GRU, utilizando embeddings de BERT para los artículos preprocesados. Sin embargo, el grupo 4 mencionó que estos modelos presentaron un claro sobreajuste debido a la escasez de datos, sugiriendo la necesidad de técnicas de aprendizaje semisupervisado y muestreo.

La Evaluación mediante Modelos de Lenguaje Grande (LLMs)

Para mejorar los resultados, el grupo 4 utilizó un enfoque de transferencia de aprendizaje con un modelo preentrenado y una base de datos adicional de más de 5000 tweets en español. A pesar de esto, los resultados fueron inferiores a los de los clasificadores probabilísticos clásicos, probablemente debido a la presencia de ruido en los propios datos.

Traducción y Nuevos Enfoques

Reconociendo las limitaciones del procesamiento del lenguaje natural en español, el grupo 4 tradujo los artículos al inglés y repitió el experimento. Los resultados mejoraron, aunque la pérdida de contexto en la traducción fue un desafío significativo para la detección del sesgo.

La Modelización del Sesgo

Para explicar el sesgo, el grupo 4 planteó un modelo de regresión lineal múltiple sencillo, que aunque no cumplió con todas las asunciones teóricas, permitió la construcción de un mapa de calor revelador. Este mapa mostró patrones interesantes, como un sesgo positivo inesperado en temas como el aborto por parte de periódicos conservadores, y correlaciones esperadas entre periódicos de distintas orientaciones políticas.

Los Resultados Finales y las Conclusiones

El proyecto logró cuantificar los sesgos por periódico y tema, identificar patrones de comportamiento entre periódicos, obtener similitudes entre temas y determinar términos influyentes para el sesgo en cada tema. Aunque el modelo no fue lo suficientemente preciso para capturar todos los matices, ofreció una visión valiosa de los patrones de comportamiento en la prensa española.

El Futuro del Proyecto

El grupo 4 mencionó que el futuro del proyecto apunta a una recolección de datos más amplia y a la utilización de enfoques semisupervisados para mejorar los modelos de sentimiento. Además, la propia creación de una API pública podría impulsar el desarrollo de herramientas de NLP en español y fomentar proyectos con fines sociales.