Descubriendo los Large Language Models (LLMs)

Macusaya Yurika
Datapath
Published in
6 min readMar 5, 2024

Los Modelos de Lenguaje Gigantes (LLMs), han llevado la Inteligencia Artificial a un escenario más accesible para todos. Sin embargo, su funcionamiento sigue siendo un misterio para muchos. Este artículo busca desentrañar la complejidad de los LLMs sin adentrarse demasiado en detalles técnicos. La idea es ofrecer una comprensión intuitiva y visual de estos modelos. Un viaje para entender y aprovechar el potencial de los LLMs en el mundo de la Inteligencia Artificial.

Imagen 1: LLMs logos. Fuente: Google Images

¿Qué son los LLMs?

Los Large Language Models (LLMs), son avanzados sistemas de inteligencia artificial especializados en entender y generar texto en lenguaje natural a gran escala. Funcionan como súper cerebros informáticos entrenados extensivamente en datos de texto, como libros y artículos, para captar patrones y contextos del lenguaje. GPT-4, con miles de millones de parámetros, es un ejemplo destacado de estos modelos. Su capacidad para comprender significados y contextos lingüísticos les permite realizar tareas diversas, desde responder preguntas hasta generar contenido creativo.

¿Cómo funcionan los LLMs?

Las Large Language Models (LLMs) funcionan utilizando arquitecturas de modelos de lenguaje basadas en Transformers. Los Transformers son una arquitectura neuronal que utiliza la atención para procesar secuencias de entrada de manera paralela, permitiendo la captura de relaciones a largo plazo en el texto. Estos modelos se componen de bloques de atención que operan en paralelo y están diseñados para manejar dependencias entre palabras a diferentes distancias.

¿Qué son los parámetros?

La cantidad de parámetros en un modelo de lenguaje profundo representa el número de pesos y sesgos ajustables durante el entrenamiento. Cuantos más parámetros, mayor capacidad de representación textual del modelo, pero también puede requerir más recursos computacionales.

El rendimiento del modelo no depende solo de la cantidad de parámetros, sino también de la arquitectura, calidad del conjunto de datos y técnicas de entrenamiento.

Imagen 2: LLMs releases. Fuente: Google Images

Existen 3 tipos de arquitecturas de Transformers que usan los LLMs con diferentes fines, como podemos observar en la imagen 2.

  • Decoder Only: Genera secuencias de salida token por token en tareas autoregresivas como generación de texto, aqui se encuentran LLMs populares como lo es ChatGPT-4.
  • Encoder-Decoder: Combina la capacidad de entender contextos de entrada y generar secuencias de salida, útil en traducción automática y generación de texto.
  • Encoder Only: Se enfoca en representar la entrada para tareas como clasificación de texto, sin generar secuencias de salida.

En la imagen 3, se visualizan las diversas categorías de Transformers.

Imagen 3: Transformers Models. Fuente: Adapatado de DeepLearning.AI Coursera

En el contexto de LLMs, como GPT-4, el modelo es entrenado de manera no supervisada en grandes cantidades de datos textuales. Durante el entrenamiento, el modelo aprende a predecir la siguiente palabra en una secuencia dada una parte del texto anterior. Este proceso de pre-entrenamiento ayuda al modelo a capturar patrones lingüísticos complejos y construir representaciones contextualizadas de las palabras.

Después del pre-entrenamiento, el modelo puede ser afinado para tareas específicas (fine-tuning) y utilizado para diversas aplicaciones, como generación de texto, traducción automática, análisis de sentimientos, entre otros. La capacidad de las LLMs para comprender y generar texto de manera contextual las hace versátiles en una amplia gama de tareas relacionadas con el NLP.

Prompts

Un “prompt” es la entrada de texto que se proporciona a un modelo de lenguaje, como ChatGPT-4, para solicitar una respuesta o generar contenido basado en la entrada dada. En la ingeniería de prompt implica ajustar las instrucciones proporcionadas al modelo, como ChatGPT-4, para obtener respuestas deseadas, incluyendo ejemplos y estrategias, estas estrategías las podemos ver en la siguiente Imagen.

Imagen 3: LLMs tasks . Fuente: Adapatado de DeepLearning.AI Coursera

Tareas y Casos de Uso

En las siguientes imagenes podemos ver algunas capacidades que poseen los Large Language Model con el ejemplo de GPT-3.5 de OpenAI.

Imagen 4: GPT-3.5 tasks p1. Fuente: Elaboración propia.
Imagen 5: GPT-3.5 tasks p2. Fuente: Elaboración propia.

Últimos lanzamientos de LLMs

Resaltamos tres de las principales compañías OpenAI, Meta y Google DeepMind. Estas empresas están continuamente involucradas en investigaciones para innovar nuevas arquitecturas de Large Language Models (LLMs), que han dado lugar a modelos que utilizamos en nuestra vida diaria como Chat GPT-4. En la siguiente imagen podemos ver una lista de los últimos lanzamientos de LLMs al mercado, hasta Febrero de 2024.

Imagen 6: LLMs releases. Fuente: Wikipedia

Desafíos de los LLMs actuales

  • Amplificación de sesgos: Los LLMs pueden heredar y amplificar sesgos sociales presentes en los datos de entrenamiento.
  • Sobreajuste: los LLMs son susceptibles al sobreajuste, generando respuestas ilógicas debido a patrones ruidosos en los datos de entrenamiento.
  • “Alucinaciones”: Los LLMs pueden generar respuestas que suenan plausibles pero son incorrectas o no coinciden con la información proporcionada.
  • Obsolescencia: La información adquirida durante el preentrenamiento podría volverse obsoleta en algunos contextos.
  • Necesidad de Supervisión Regulatoria: El rápido avance en inteligencia artificial destaca la necesidad de supervisión regulatoria para abordar desafíos éticos y sociales.
  • Ingeniería de Prompt: Los resultados de los LLMs están fuertemente influenciados por la sintaxis y semántica de los “prompts” de entrada, a veces de manera contraintuitiva.
  • Limitaciones en Tareas de Razonamiento y Planificación: Algunas tareas de razonamiento y planificación, como la planificación de sentido común, siguen siendo desafiantes para los LLMs, que carecen de garantías sólidas en habilidades de razonamiento.

Conclusiones

En resumen, los Large Language Models (LLMs) han transformado la inteligencia artificial, llevando la comprensión y generación del lenguaje natural a nuevos niveles. Representan lo que con investigación podemos llevar a crear, vimos que son capaces de realizar una variedad de tareas de lenguaje, capaces de interpretar y crear en escalas monumentales. Aunque destacan en diversas tareas, se enfrentan a desafíos éticos como sesgos y alucinaciones. La supervisión regulatoria y mejoras continuas en la ingeniería de prompts son esenciales para su uso responsable.

Próximos Pasos

Los horizontes futuros nos sumergen en investigaciones continuas, ética en evolución, refinamientos apasionantes en la ingeniería de prompts, una educación para los usuarios, colaboraciones que desafían las fronteras disciplinarias e incluso con integración modal, creando diferentes modelos generativos como el último lanzamiento Sora de OpenAI, puedes ver el blog sobre este lanzamiento justo aquí. Como entusiastas de este campo, nuestro compromiso es mantenernos al tanto de los desarrollos actuales, comprendiendo a fondo qué son y cómo operan estos modelos. No solo por su relevancia en el estado del arte, sino también para incorporar sabiamente estos avances en nuestra vida cotidiana.

Referencias

Gracias por leerme,

¿Quieres seguir aprendiendo y conectarte con nuestra comunidad? Te invitamos a unirte a nuestras redes sociales. ¡Síguenos en Instagram y LinkedIn para estar al tanto de las últimas noticias, tutoriales y recursos sobre tecnología y aprendizaje automático!

Datapath

Acelerando el talento LATAM en data, cloud, analytics e inteligencia artificial

⚪DISCORD: https://go.datapath.ai/Discord_IALatam

🔵Linkedin: https://go.datapath.ai/Linkedin

🟡Instagram: https://go.datapath.ai/Instagram

🔴Facebook: https://go.datapath.ai/Facebook

🟢Tiktok: https://go.datapath.ai/Tiktok

--

--