Cómo creamos Visión Latina, una herramienta de Inteligencia Artificial pensada para medios latinoamericanos

Published in

Grupo Octubre

5 min readJun 7, 2022

En octubre del año pasado, con apoyo del Google News Initiative Innovation Challenge empezamos a trabajar en Visión Latina, un proyecto que busca hacer más eficiente la gestión de los archivos audiovisuales de los medios de comunicación a través de tecnología. En concreto, lo que buscamos es automatizar una parte del proceso de clasificación de todo el material de videos y fotos que se genera cada día en Grupo Octubre, para que después sea más fácil de encontrar y usar. El objetivo es que, cada vez que un/a fotógrafo/a, periodista o productor/a de contenido guarda una foto o un video en nuestro archivo, no tenga que cargar manualmente toda la información que acompaña a esa foto o video –como quiénes aparecen, cuál es el contexto, cuándo fue creada– sino que esos datos se generen de manera automática. De esa manera, buscamos tener un archivo audiovisual común a todo el grupo y más “inteligente”: con más datos para hacer mejores búsquedas, que permitan aprovechar todo su valor, que es inmenso (entre IP y Canal9 se producen 32 horas de vivo por día, y el archivo incluye todo el material fotográfico de Página 12 desde su fundación en 1987).

Además de crear esa solución interna, queríamos socializar el aprendizaje y crear soluciones que sirvan en otras redacciones, en otros medios y en otros países. Por eso, creamos una herramienta en la que medios de toda América Latina pueden subir hasta 30 minutos de video y les devuelve la metadata: les indica quiénes aparecen en el video (para eso creamos una base de datos con las principales figuras políticas y culturales de América Latina), algunos tags automáticos y la transcripción del audio.

Para empezar a usar la herramienta, pueden hacer clic acá.

En el proceso, aprendimos algunas cosas sobre trabajar con Inteligencia Artificial en medios de comunicación:

1. Necesitamos más inteligencias artificiales latinoamericanas (y compartir el conocimiento que generamos)

Cuando empezamos a pensar el proyecto, nos dimos cuenta de que los servicios que existen hoy en el mercado para identificar a personalidades dentro de imágenes están en su mayoría entrenados en inglés y con personajes del mundo anglosajón. Por ejemplo, reconocen a Donald Trump, pero no a Alberto Fernández o Jair Bolsonaro. A partir de eso, nos pusimos el objetivo de crear una base de datos con las principales figuras de la política y cultura latinoamericanas. Para hacerlo, trabajamos con el archivo fotográfico de Página 12. Cargamos a una plataforma fotos y empezamos a indicarle al sistema qué cara correspondía a cada nombre, para que a la segunda vez que subiéramos una foto en la que aparecía esa misma persona ya la identificara de manera automática. Así, ya identificamos a toda la primera línea política de todos los países de la región desde 2010 en adelante, además de personalidades de la cultura, y seguimos avanzando. Y porque queremos que ese conocimiento esté disponible para otros, creamos la herramienta Visión Latina.

2. Podemos automatizar tareas, pero el conocimiento empieza y termina con humanos

Para el proceso que describimos en el párrafo anterior, por supuesto era necesario que inteligencia humana –y no artificial– recorriera esas fotos y le enseñara al algoritmo, a partir de la experiencia y conocimiento propios. Santiago Criscuolo, un especialista en archivos digitales trabajó de manera manual con las fotos que subíamos para reconocer a las personas que aparecían en las fotos y entrenar al algoritmo. Su aporte también fue valioso para normalizar la manera en la que guardamos los datos a través de todo el archivo de los diferentes medios del grupo, para que ya no funcionen de manera atomizada sino como un gran activo para Grupo Octubre.
Esto aporta evidencia al argumento que, efectivamente, se puede generar una relación complementaria entre inteligencia artificial y trabajo humano, y que no son excluyentes. Además, el objetivo de automatizar las tareas de etiquetado y clasificación es que los/as archivistas, editores y periodistas puedan dedicar más tiempo a tareas que no son automatizables, como encontrar piezas valiosas dentro del archivo audiovisual y generar contenido a partir de eso.

3. Los servicios cognitivos que existen en el mercado son extremadamente eficientes

Cuando empezamos con el proceso de creación de la base de datos, pensamos que por cada persona íbamos a tener que usar varias fotos en las que le indicáramos al software quién era esa persona hasta que aprendiera a reconocerla. No fue así. En todos los casos bastó una sola foto para que a la segunda ya la identificara de manera automática. Y nos sorprendimos varias veces en el camino: encontró a personas identificadas previamente hasta en caricaturas dibujadas en una bandera en un acto político, o incluso en un tatuaje. Los servicios cognitivos que estamos usando para estas tareas son los de Google, Amazon e IBM, integrados en Mimir, un software de gestión de archivos digitales.

4. Necesitamos herramientas de AI creadas para redacciones

Aunque los servicios cognitivos son efectivamente muy eficaces, muchas veces lo son de una manera general y no para el contexto específico de la producción periodística. Tiene sentido, ya que no fueron creados para eso (y somos nosotros los que podemos entrenarlos para que mejoren). A las imágenes que procesamos también les aplicamos el servicio de reconocimiento de objetos. Esto podría ser muy útil para crear mejores etiquetas automáticas y descripciones que permitan que después sea más fácil encontrar la imagen perfecta para un contenido. Incluso para generar epígrafes y videographs de manera automática. Sin embargo, las descripciones y etiquetas que obtuvimos no eran muy relevantes en términos periodísticos. Por ejemplo, en un video de una reunión entre Gabriel Boric y Alberto Fernández obtuvimos las sugerencias: traje, vestir, alfombra roja y ¡primera cita! (por cómo estaban vestidos y por la entrada a la Casa Rosada, donde sucedía la reunión). Crear una base de datos para el reconocimiento de objetos con ojo periodístico puede ser una próxima etapa de Visión Latina.

**5. A trabajar con distintos idiomas de datos**

El flujo de trabajo que creamos implica ingestar los videos y fotos al software donde se genera la metadata automática, y después devolverlo a los softwares de edición y publicadores, con esa metadata ya incorporada. Para eso, necesitamos que los sistemas hablen entre sí, y que el formato en el que se presentan los datos cambie algunas veces en el camino. Una vez resuelta la parte técnica, teníamos otro desafío. Queríamos poner a disposición de otros medios el conocimiento que habíamos generado y mostrar cómo funciona la herramienta. Aunque un archivo .json es la manera de hacer eso en términos técnicos, queríamos que los datos pudieran ser leídos y comprendidos por los usuarios no técnicos. Es decir, por periodistas como nosotros que para beneficiarse de la herramienta necesitan entender el proceso. Por eso, en la herramienta Visión Latina incluímos la opción de descargar los datos asociados al video que subieron los usuarios en un formato .xlsx, que pudiera ser visualizado por ojos humanos en Excel o Spreadsheets.

Buscamos que Visión Latina ayude a la redacción (y a otras redacciones en el futuro) a encontrar más y mejor material para contar mejores historias y en menor tiempo, al agilizar la clasificación y búsqueda de contenido audiovisual. También queremos darle más valor al trabajo del equipo que trabaja en archivo para que puedan tener más tiempo para sugerir contenido a la redacción. Vamos por ese camino.