El invierno de la IA se acerca

Mario Campos Soberanis
4 min readFeb 2, 2023

--

En los últimos días el mundo puso sus ojos sobre el avance de la Inteligencia Artificial gracias a la viralidad alcanzada por ChatGPT. Para los investigadores en IA un momento que debería ser dulce se ha convertido en amargo. A menudo la gente que se encuentra detrás de un pizarrón, haciendo los cálculos, buscando la siguiente estructura matemática que ayude a “simular” las capacidades cognitivas humanas y haga de nuestros algoritmos más inteligentes, sueña con el momento en que el público en general reconozca la belleza existente en las ecuaciones matemáticas que logran simular el aprendizaje y una capacidad de razonamiento que parece humana, pero en realidad no está allí.

Los investigadores quieren que su trabajo sea reconocido y fructífero para la humanidad, sin embargo, hemos visto como en las últimas semanas se ha sacado de contexto completamente los avances hechos en los últimos años en el campo de la Inteligencia Artificial y peor aún, se están sentando las bases para un invierno que ralentice los avances que se habían tenido en los últimos años.

¿Qué es ChatGPT?

Gente de varias profesiones y medios ha inflado las capacidades de ChatGPT, sin entender que es y como funciona. ChatGPT no es otra cosa que un macro modelo de lenguaje (el viejo GPT3, con cafeína), cuyas respuestas fueron rankeadas por humanos, para aprender una política de contenido ofensivo, inapropiado o alucinógeno usando reinforcement learning (Proximal Policy Optimization) para hacer más “seguras” sus repuestas.

Fig 1. Proceso de entrenamiento de ChatGPT, tomado de https://openai.com/blog/chatgpt/

Los modelos de lenguaje neuronales no son nada nuevo y sientan sus bases en trabajos del 2003 con brillantes aportaciones de Yoshua Bengio et al. Posteriormente se desarrollan poderosas técnicas de embeddings, y mecanismos de atención lo cual da origen a la arquitectura de transformer, la cual en mi opinión, es el último gran avance que hemos tenido en Procesamiento de Lenguaje Natural.

A partir de ahí se han hecho diversos estudios que optimizan está arquitectura y exploran las capacidades de los modelos de lenguaje al ser preentrenados con cantidades masivas de información y el resultado aplicado a muchas tareas, como resolución de problemas matemáticos, diálogo, resumen de artículos, programación, entre otras. Es por eso que vemos a ChatGPT, como un paso más en la larga línea de desarrollo de los modelos de lenguaje que tiene más de 20 años de investigación a cuestas y contextualiza la afirmación de Yann LeCunn acerca de que ChatGPT no es particularmente innovador.

El problema

Los modelos de lenguaje no razonan. Generan una distribución estadística de palabras que suenan bien juntas, al contextualizarlas con una entrada. Un modelo de lenguaje se entrena para reducir al perplejidad del modelo, es decir que las palabras se concatenen de una manera plausible. Como resultado, los macro modelos de lenguaje están generando texto que no es fiable pero suena plausible. Como ejemplo podemos mostrar la introducción de un artículo generada por un modelo de lenguaje que destaca los beneficios de inhalar vidrio molido para la salud:

Figura 2. Modelos de lenguaje generando textos desinformativos.

En efecto éstos modelos no generan información precisa, y si bien se están realizando esfuerzos para que la información producida por éstos sea más factual, representan un peligro por la desinformación que pueden generar. Fue muy sonado el caso del modelo Galáctica, el cual tuvo que ser retirado un par de días después de su publicación debido a que no estaba generando información científicamente precisa. Esto está afectando a las universidades, y a la industria.

Un ejemplo sonado fueron los artículos generados por IA publicados por CNET, en los cuales se encontraron errores. También es conocido el caso de la universidad de Nueva York, la cual prohibió el uso de herramientas de IA para la generación de ensayos y tareas.

Inclusive se ha visto el caso de científicos dando como coautores a Modelos de Lenguaje.

Es indudable que se ha generado un gran “hype”, el cual ha llegado al mercado, con un trato billonario entre Microsoft y OpenAI. Esto ha provocado una aceleración en el mercado, en el cual vemos urgencia por parte de las grandes empresas de entregar rápidamente modelos, que aún no son confiables. Google y Meta son los principales afectados, en particular Google ha acelerado el desarrollo de Sparrow y Meta parece estar haciendo mayores esfuerzos con Galactica y Blenderbot. Otro efecto que estamos viendo es a varios de los científicos que trabajaron en generar la tecnología emigren de las grandes empresas para generar sus propias startups, que entreguen éstos modelos.

En resumen estamos entrando a al época donde los modelos de lenguaje van a generar información que suena real, pero no es fiable y una gran cantidad de empresas se van a lanzar en pos de comerse el mercado de procesamiento de Lenguaje Natural.

Esta competencia feroz parece estar apuntando en torno a que las empresas líderes de IA cierren su investigación para mantener una ventaja del mercado. Si esto sucede se perderá la cultura de compartir los avances, lo cual sin dudas ralentizará el paso del desarrollo de la IA, y nos puede conducir a un nuevo invierno de la IA.

Es necesario encontrar un equilibrio entre la ciencia abierta y la cultura de compartir los avances de investigación y la ventaja económica en el mercado. De no hacerlo, todos nos veremos perjudicados por la ralentización del avance en la investigación de la IA. Espero equivocarme pero hay serios indicios que parecen indicar que: “el invierno se acerca”, al menos hablando desde la perspectiva de investigación.

--

--