LLMs: ¿Son la nueva era de la inteligencia artificial conversacional?

Andres David Blandon Restrepo
Bancolombia Tech
Published in
6 min readApr 9, 2024

Los modelos de lenguaje a gran escala (LLMs) como ChatGPT y Gemini están marcando el inicio de una revolución: la era de las conversaciones con Inteligencia Artificial (IA) que fluyen como las conversaciones entre personas.

A menudo interactuamos con tecnologías de punta como ChatGPT y Gemini sin considerar los desafíos que existen en su implementación. Nos encontramos en una etapa de descubrimiento y evolución de esta tecnología, donde el producto final aún está tomando forma y vemos que tiene un camino lleno de potencial. Sin embargo, a pesar de su impresionante desempeño, las implementaciones que hacen uso de los LLMs enfrentan grandes desafíos que complican su adopción en el ámbito empresarial:

· Información desactualizada o errónea: dado que los LLMs se entrenan con conjuntos de datos estáticos, pueden generar respuestas basadas en información desactualizada o incorrecta, lo que afecta su fiabilidad y precisión.

· Privacidad y la seguridad de los datos: utilizar datos sensibles o privados en LLMs plantea riesgos significativos en términos de seguridad y privacidad. Las organizaciones no están dispuestas a compartir sus datos con terceros y poner en riesgo la confidencialidad de la información de su negocio.

· Requerimientos de cómputo elevados: los LLMs requieren grandes cantidades de cómputo (GPUs), especialmente para la fase de entrenamiento, lo que implica altos costos que muchas empresas no pueden asumir.

· Requerimiento de grandes volúmenes de datos: los LLMs necesitan grandes cantidades de datos de calidad para su entrenamiento, lo que supone el reto de contar con etiquetadores expertos.

Un poco de historia nos ayudará a entender el estado actual de estos sistemas…

La publicación del paper “Attention is All You Need” por investigadores de Google en 2017 marcó el comienzo de una nueva era para el procesamiento de lenguaje natural (Natural Language Processing NLP). Este paper introdujo la arquitectura de redes neuronales llamada Transformers, que es el motor y la base de los LLMs.

La esencia de los modelos de transformers está en su arquitectura de codificador-decodificador.

El codificador recibe un texto como entrada y lo divide en tokens que representan cada una de las palabras del texto de entrada, luego, el codificador convierte los tokens en embeddings que son vectores numéricos que representan cada una de las palabras. Esta conversión del lenguaje natural (letras) al mundo digital (números), permite que el texto de entrada pueda ser analizado a través de operaciones matemáticas y sea posible asociar cada palabra a un espacio vectorial que representa su significado semántico (significado de diccionario).

El decodificador utiliza la información procesada por el codificador para encontrar las relaciones contextuales de cada palabra, y generar la salida deseada, manteniendo la coherencia y relevancia contextual. Esto, se logra a través de un “mecanismo de atención” que permite al modelo enfocarse en partes específicas de la entrada, para generar el texto de salida. El mecanismo asigna diferentes pesos (Weights) a las palabras del texto de la entrada, indicando cuánta “atención” se debe prestar a cada palabra al procesar la información. En esencia, ayuda al modelo a decidir qué partes de la entrada son más relevantes en un contexto dado, mejorando la precisión y relevancia de las respuestas generadas. Este mecanismo imita la forma en que notros las personas comprendemos el lenguaje, concentrándonos en los elementos clave de una oración para extraer su significado.

La evolución de Transformers a LLMs

La introducción de la arquitectura de transformers (codificador-decodificador) inicialmente se enfocó en tareas de traducción de lenguaje, utilizando el codificador para analizar las entradas y el decodificador para generar las salidas en el idioma deseado. Sin embargo, se descubrió que separando estos dos componentes, se podían acelerar los tiempos de respuestas y eliminar la secuencialidad en el procesamiento de las entradas. Esta división en la arquitectura de las redes neuronales dio como resultado el surgimiento de los LLMs (solo decodificador).

Hagamos una analogía… Podemos comparar el codificador como una función que permite comprimir un gran conjunto de datos en un archivo de parámetros. Este archivo resultante NO conserva la estructura estática del contenido, sino su significado y sus patrones de lenguaje. Por otro lado, podemos comparar el decodificador con una función que permite descomprimir la base de parámetros de una manera no textual y no determinística, pero conservando los patrones más relevantes del conjunto de datos.

Esta división marcó un gran avance en la inteligencia artificial, particularmente en el campo de NLP. La transición de los modelos de redes neuronales basadas en la arquitectura de transformers (codificador-decodificador) hacia los LLMs (solo decodificador), permitió un procesamiento más eficiente y flexible del lenguaje, dando origen a la creación de LLMs como GPT-4, Claude 3 y Llama3. Estos modelos fueron entrenados con grandes conjuntos de datos, adquiriendo una comprensión profunda del lenguaje.

¿Qué es RAG y su relación con los LLMs?

La técnica de Retrieval-Augmented Generation (RAG) es un mecanismo que mejora el funcionamiento de LLMs. RAG combina el poder generativo de los LLMs con un proceso de búsqueda y recuperación de información, permitiendo que el modelo busque datos en una base de conocimiento externo en tiempo real. Esta integración posibilita la generación de respuestas, no solo basadas en el conocimiento aprendido durante su entrenamiento, sino también en información actual y relevante obtenida de diversas fuentes.

Este mecanismo no solo enriquece la calidad y precisión de las respuestas, sino que también cubre eficazmente algunos de los principales desafíos de los LLMs: mantener la actualidad del modelo sin necesidad de un reentrenamiento constante y costoso. RAG representa una metodología costo-eficiente para mantener las soluciones que utilizan LLMs actualizadas y relevantes.

Revolución en todas las áreas

Más allá de la traducción y la generación de texto, los LLMs están revolucionando la forma con la que interactuamos con la tecnología y cada vez vemos más avances en la inclusión de interacciones multimodales sobre estos modelos. Gemini, un LLM multimodal desarrollado por Google, es un gran ejemplo de un modelo que recibe instrucciones en lenguaje natural para producir una salida en formatos de texto, imágenes, audio, ofreciendo una experiencia y unos resultados muy similares a la interacción que podríamos tener con otra persona.

Gracias a su facilidad de uso a través de lenguaje, los LLMs están penetrando en cada una de las industrias, desde la generación de contenido creativo hasta el desarrollo de chatbots avanzados, pues su capacidad para comprender y producir contenido coherente y contextual abre un abanico de posibilidades en todos los sectores. Veamos algunos ejemplos:

· Desarrollo de software: revolucionan la manera en la que los programadores crean y depuran código. Herramientas como GitHub Copilot utilizan estos modelos para sugerir automáticamente mejoras en el código, detectar errores que los desarrolladores no identificaron.

· Educación: facilitan entornos de aprendizaje más interactivos y personalizados. Plataformas educativas utilizan estos modelos para proporcionar tutorías, donde los estudiantes pueden recibir ayuda instantánea en una variedad de temas.

· Marketing digital: transforman cómo las marcas interactúan con sus audiencias. Herramientas basadas en LLMs pueden generar descripciones de productos, publicaciones en redes sociales, y contenido que captura la esencia de la marca.

· Salud: mejoran el diagnóstico y tratamiento de enfermedades. Por ejemplo, al analizar historiales clínicos, incluyendo radiografías y datos de resultados médicos, los LLMs pueden ayudar a predecir el riesgo de enfermedades crónicas, como diabetes o enfermedades cardiovasculares, permitiendo intervenciones preventivas más tempranas y personalizadas que mejoran significativamente los resultados para los pacientes.

Hacia un futuro más inteligente y eficiente

La evolución de las redes neuronales basadas en la arquitectura de transformers, los nuevos LLMs y nuevas técnicas como RAG están transformando la forma con la que se aplica el NLP en nuevas soluciones tecnológicas. Estos nuevos avances nos llevan hacia una nueva forma de interacción a través de lenguaje con la tecnología, disminuyendo las fricciones y barreras. Es incierto como seguirá evolucionando esta tecnología, pero es de esperarse que los avances que se desarrollen en los próximos años, estén enfocados en seguir mejorando la productividad de sus usuarios.

--

--