Isaac Asimov, Multivac y ChatGPT

Con seguridad, el 2022 será recordado como un año bisagra en lo que a AI se refiere.

Guille Watson

Published in

Datalytics

7 min readDec 6, 2022

Leer este artículo en inglés.

En enero de 2022, Open AI lanzó Dall-E 2 y todos nos quedamos recalculando, tratando de entender cómo funcionaba primero y jugando después.

Por si hay alguien perdido en la estratósfera, Dall-E es un programa que crea imágenes a partir de descripciones textuales. Tan “fácil” como eso. Uno escribe una descripción, y éste arma una imagen.

¿Cómo se entrenó? Podemos sobresimplificarlo diciendo que aprendió primero de imágenes con descripciones y después aprendió a relacionarlas. Entonces, pidiendo un panda patinando sobre hielo, tomará lo que “sabe” de Pandas, lo que “sabe” de patinaje sobre hielo y creará una imagen 100% nueva combinando ambas.

Como derivadas de esto, sin esfuerzo puede completar imágenes. Por ejemplo, tomemos “Noche estrellada” de Van Gogh y extendámoslo:

Y nos permite seguir jugando. Por ejemplo, esta es una foto de mis vacaciones, donde con, literalmente, una descripción más un click, extendió la imagen y agregó lo que le pedí (un t-rex amenazante):

Más allá de lo lúdico de todo esto, lo que rescato es que es la primera vez que de forma sencilla y sin complejidades se expone el avance en lo que a AI se refiere.

Es decir, más allá de la utilidad o no que puede tener esto, la implementación que hizo OpenAI con Dall-E hizo más por la divulgación de AI como tópico caliente que cientos de artículos escritos (siendo este una contribución más a la causa 😊).

Adicionalmente plantea, casi de forma desapercibida una interrogante que irá tomando fuerza: ¿quién es el autor de esto? ¿quién es el artista? ¿podrá un modelo recibir un premio?

Nos acostumbramos rápido a lo bueno

Cuando el tema ya empezaba a agotarse y a pasar desapercibido, la semana pasada, el 30 de noviembre de 2022, OpenAI lanzó ChatGPT. Y de nuevo, redefinieron el estándar de lo posible, encima haciéndolo visible y fácil para todos nuevamente.

ChatGPT se basa en GPT: Generative Pre-trained Transformer. O mejor en criollo: es un conjunto de modelos de AI (cuatro en particular) que entienden y generan texto, siendo uno el más potente y eficiente: Da Vinci. Es decir, interpreta lo que le decimos y nos responde en consecuencia.

En Datalytics decidimos probarlo traduciendo del español al inglés el artículo que publicó la gran Heidy Villa justo la semana anterior (Cómo volver a enamorarse de los proyectos de analítica apalancados en Scrum, si no lo leyeron, más que recomendado).

Traducir palabras es sencillo: es un diccionario. Traducir oraciones es un poco más complejo. A esta tarea le agregamos más complejidad cuando cambiamos las raíces idiomáticas: el español de raíz latina, al inglés de raíz ánglica. Esto implica mayor diferencia en la forma en que se conforman las oraciones.

Si encima a este combo le agregamos que queremos traducir un artículo de más de 1500 palabras, la tarea ya es realmente compleja. Prueben hacerlo con Translate de Google y van a ver el resultado: un buen esfuerzo, pero un resultado inútil.

La complejidad radica en que, para hacerlo bien, hay que entender el contexto y de esa forma rearmar las oraciones para que tengan sentido. Justamente siendo una tarea de complejidad semántica (qué es lo que el artículo dice, su sentido) y no tan sólo sintáctica (cómo lo dice, reglas que se usan para conformar oraciones).

El resultado que logramos con la traducción fue… increíble. En cuestión de segundos, teníamos el artículo traducido. Sin un solo error. Con oraciones completamente rescritas.

Acá tienen el artículo original, y acá el artículo traducido: tómense unos minutos para leerlo (en el idioma que quieran 😉 ), porque no tiene desperdicio.

Pero lo que realmente nos desconcertó y evidenció el potencial, fue que, a la hora de ir validando los resultados, nos sobraba un párrafo. Pensamos era un error: que a la hora de copiar y pegar se nos había escapado algo. O que había modificado la estructura del artículo, simplemente agregando un salto de línea.

Pero no.

A la hora de traducir, ChatGPT nos había agregado un párrafo. Que tenía sentido para el artículo, para la estructura narrativa y para el contexto donde lo insertó. Un párrafo de su propia autoría o lo que sea que signifique eso (aunque algo me dice que en un futuro cercano nos vamos a acostumbrar a eso).

Impresionante.

Otras pruebas: GPT programando

Siendo que trabajamos con datos, nos pareció interesante probar cómo interpretaba y resolvía problemas de datos usando código. Para esto, le pedimos que resuelva un problema de SQL básico, uno que inclusive es parte de los exámenes que tomamos en Datalytics:

No sólo lo resolvió, sino que agregó una explicación detallando lo que hizo.

Ya que estamos, le pedimos hiciera lo mismo, pero usando Pandas:

¿Por fin alguien que comenta el código, no? En fin. Y por último usando PySpark:

No pasó todavía una semana desde que se lanzó GPT y han ido apareciendo montones de pruebas o casos de uso extraños:

Por ejemplo en este artículo, le piden a GPT que simule ser una computadora, donde ejecutan código Python, levantan un contenedor de Docker y navegan Internet. Inclusive, en un acto de recursividad hermosa, se conectan desde la máquina simulada en ChatGPT con… ChatGPT.
En este hilo de Twitter muestran el resultado de hacerle un test para calcularle el coeficiente intelectual.
En este otro, cómo le pidieron que arme el código en Python para el ta-te-ti.

No es casual que en sólo 5 días haya llegado al millón de usuarios, ¿no?

En qué se basa todo esto

Aunque parece un trabalenguas, GPT es un modelo de predicción y generación de propósito general de tipo masivo.

La clave de GPT (y de toda esta clase de modelos de propósito general) es su tamaño: al menos la versión 3, tiene “tan sólo” 175 billones de parámetros. Es 100 veces más grande que su predecesor, GPT-2. De la versión actual (la 3.5) no se publicó su tamaño, pero se asume mucho más grande. En unos meses tendremos la versión 4 que será todavía más masiva y definitivamente, más poderosa.

GPT “aprendió” a relacionar palabras, oraciones y párrafos usando datos públicos de la web: entradas de Wikipedia, posts de redes y artículos varios. En particular, los datasets usados salen principalmente de Common Crawl (petas de datos recogidos desde 2008). Por si alguien tiene ganas de jugar, estos datasets son públicos y se pueden acceder desde el link anterior (pero ojo nomás con la cuenta a fin de mes: GPT-3 se entrenó durante 9 días sobre infraestructura de Azure y costó la módica suma de USD $ 4,6 millones). Para entrenarlo se usó aprendizaje reforzado donde, como si fuera un juego con premios y castigos, el modelo se va mejorando en base a devoluciones hechas por humanos (Reinforcement Learning from Human Feedback, RLHF). Acá una explicación sencilla de cómo funciona.

Multivac la máquina todopoderosa de Isaac Asimov

Casualmente este año se cumplen 30 años de la muerte del gran maestro de la ciencia ficción, Isaac Asimov. En el cuento “La última pregunta”, Asimov relata una historia que se centra en Multivac: una máquina futurista que concentra el conocimiento de todo el mundo y que responde cualquier tipo de pregunta.

En el cuento narra como en un futuro cercano, Multivac primero resolvió preguntas simples, para después pasar a preguntas más complejas, para después diseñar naves espaciales e inclusive resolver cosas como la generación de energía limpia.

Si consideramos que en la actualidad el “conocimiento” se concentra en Internet y que ChatGPT lo incorporó como parte de su entrenamiento y que interactúa con nosotros resolviendo consultas… Bueno, la analogía es bastante directa.

No pasó ni una semana del lanzamiento y no paran de aparecer nuevos casos de uso. Ni hablar de los que aparecerán en cuestión de meses y ni pensar de versiones futuras (GPT-4), todavía más potente y que en cuestión de meses ya estará disponible.

La mejor forma de cerrar este artículo es copiando las últimas tres oraciones del cuento de Asimov:

“Y Multivac dijo:

¡HÁGASE LA LUZ!

Y la luz se hizo…”