Las Big Tech Mienten Sobre los Benchmarks de los LLM… Otra Vez.

Thcookieh
8 min readJul 30, 2024

--

Quizás pienses: “Los LLM están revolucionando la IA, ¿verdad?” Pero, ¿qué pasaría si te dijera que los benchmarks que usamos para medir su progreso son defectuosos, incluso engañosos? Estoy aquí para argumentar que la forma en que actualmente evaluamos los modelos de lenguaje grandes (LLM) es una mentira.

Introducción

Seamos realistas, ChatGPT ha cautivado al mundo con sus impresionantes capacidades de generación de texto. Es un testimonio del progreso que hemos hecho en IA. Sin embargo, creo que estamos siendo seducidos por la ilusión de la inteligencia.

Los benchmarks en los que confiamos no reflejan el verdadero potencial de los LLM; solo miden su capacidad de memorizar y regurgitar información. Necesitamos mirar más allá de estas métricas superficiales y exigir una evaluación más significativa de las capacidades de los LLM.

¿Estás listo para profundizar? Voy a desafiar el paradigma actual y revelar la verdad sobre cómo estamos evaluando los LLM.

¿Qué es un benchmark de LLM?

Un benchmark de LLM es solo una forma elegante de decir que pones a prueba un LLM. ¿En qué? Parece que nadie lo sabe realmente, pero a menudo se están incrementando y aplaudiendo el hecho de que son buenos para recordar.

Vamos a dar una verdad fundamental aquí: los LLM alucinan y no son una fuente confiable de información. No son deterministas, sino que completan el texto determinado por un sesgo de anclaje (tu propia entrada). Dependiendo de la entrada, es tu salida. También puedes modificar esta salida “determinista” alterando el calor, pero aún siguen una entrada para completar las palabras.

¿Cómo puede alguien determinar qué tan bueno es realmente un LLM? Porque parece que mucha gente está compitiendo para ver quién está haciendo “el mayor avance tecnológico de la historia” en muchas tablas de clasificación, y la gente que no se cuestiona a sí misma sobre qué está de acuerdo y publica en LinkedIn lo “innovador” que es tener un nuevo LLM cada tres días.

Problemas con los benchmarks

Profundicemos en ello, utilizaremos la tabla de clasificación abierta de Hugging Face y su documentación y referencias de los trabajos de los que hablaremos hoy, encontrarás el adjunto en los nombres de los benchmarks. Primero daré el objetivo y su enfoque, y luego daré mi opinión sobre todo el benchmark.

Así es como muchas personas ponen a prueba sus creaciones:

  1. IFEval:
  • Objetivo: Probar qué tan bien su IA sigue instrucciones.
  • Cómo: Dar una instrucción y ver qué tan bien la realiza.
  • Observación: De hecho, esto es muy bueno, seguir instrucciones es una forma de decirle al modelo que organice ideas y las use de la manera real: solo lingüísticamente.

2. Big Bench Hard (BBH):

  • Objetivo: Presentar un desafío y ver si pueden realizarlo.
  • Cómo: Presentan una pregunta como la siguiente: “Ordena las siguientes palabras alfabéticamente: Lista: burley bela arapaho bacteria bock” e intentan hacerlo paso a paso.
  • Observación: Esta idea es realmente interesante, pero el proceso de pensamiento también se puede inscribir dentro de los datos de entrenamiento, pueden recordar este proceso de pensamiento en cadena si fueron entrenados con ellos.

3. MATH:

Problemas de matemáticas para preparatoria
  • Objetivo: Probar el rendimiento en preguntas de matemáticas de nivel de preparatoria.
  • Cómo: Presentar preguntas lógicas y matemáticas.
  • Observación: Aquí hay un gran problema. Los modelos trabajan con tokens, a menos que la relación entre las operaciones matemáticas y cada token numérico individual se haya creado durante el entrenamiento; no razonarán, sino que predecirán lo que ya saben. Su set de datos está disponible públicamente y se puede utilizar para entrenar sus modelos.

4. Graduate-Level Google-Proof Q&A Benchmark ( GPQA )

  • Objetivo: Probar el conocimiento.
  • Cómo: Presentar preguntas sobre diversos temas, como biología, química y física.
  • Observaciones: Esto nuevamente está probando qué tan bien los LLM memorizan… parece que la gente olvidó que también alucinan. Incluso si han visto el resultado de antemano, es probable que presenten otras respuestas. ¿Por qué? Se puede encontrar buena gramática en hechos y mentiras. Ten cuidado con la dependencia de la memoria o sé otro Google.

5. MultiStep Reasoning (MuSR)

  • Objetivo: Probar el razonamiento lógico.
  • Cómo: Presentar preguntas generadas algorítmicamente sobre misterios, ubicaciones de objetos, etc.
  • Observaciones: Tengo que ser realmente honesto, este podría ser útil para probar preguntas de seguimiento de contexto, porque los modelos necesitan seguir instrucciones específicas del conjunto de datos… pero usaron GPT4 para crear los árboles.
Los LLM basados en GPT son mucho mejores que los demás… este es un gran ejemplo de “coincidencias”.

¿Por qué es un problema? Bueno, los basados en GPT serán más propensos a seguir la misma estructura de predicción ya que sus pesos y sesgos son similares al colocar palabras una al lado de la otra… Adivina qué pasó en sus pruebas… Cualquier conjunto de datos que se cree con un LLM base tendrá una alta probabilidad de sobresalir en sus modelos familiares.

Esto se conoce como vulnerabilidad de la cadena de suministro, lo que significa no solo llevar de un modelo a otro los sesgos de los pesos, sino también su memoria. También cubrí esto en esta publicación de blog.

6. Massive Multitask Language Understanding — Professional (MMLU-PRO)

  • Objetivo: Las pruebas “FLDSMDFR” memorizan… de nuevo.
  • Cómo: Presentar un cuestionario de opción múltiple de 10 campos.
  • Observaciones: Hay una delgada capa entre aprender los resultados y razonarlos. Nuevamente, este conjunto de datos es abierto y está disponible, cualquiera podría usarlo en sus entrenamientos y hacer trampa en los resultados. Fuera de esas preguntas, pueden tener un rendimiento aún peor. No están aprendiendo en un sentido significativo; simplemente están prediciendo en función de lo que se les ha enseñado.

¿Solo una opinión personal?

Ahora… En este punto, si te atreviste quedarte hasta el final, es posible que estés pensando en cómo esto es solo mi opinión personal, amateur, sesgada… Pero, de hecho, no solo es mía. Ha habido mucha gente que está de acuerdo conmigo en esto también.

Tomado del paper: “Don’t Make Your LLM an Evaluation Benchmark Cheater”.

La ley de Goodhart: “Cuando una medida se convierte en un objetivo, deja de ser una buena medida”.

Los trabajos de “No conviertas tu LLM en un tramposo de evaluación de benchmarks” cubren ampliamente este tema. En un breve resumen: muchos de los benchmarks no se basan en la comprensión real, sino en la memorización. Y no puedo estar más de acuerdo con ellos. Necesitamos otras formas de probar la IA y dejar de depender de la memoria.

Actualmente no hay acuerdo sobre cómo hacer benchmarks, y la mayoría de las grandes empresas tecnológicas están cerradas en cuanto a cómo entrenan. ¿No es gracioso cómo están luchando para ver cuál de ellos tiene más grande… los numeros? pero no mencionan cómo obtienen esos números? ¿Qué pasa si hicieron trampa?

Ir más allá de la memoria

Photo by Mick Haupt on Unsplash

Una de las razones por las que las RAG son tan importantes es que se basan en datos contextuales. La mayoría de los LLM son “buenos” en el papel… Pero cuando se ponen a prueba, tendrán un rendimiento abrumadoramente incorrecto. Con una RAG puedes aumentar hasta 3 veces los resultados en las respuestas, ya que no dependes de la memoria, sino del contexto y la tarea.

No quieres ser otro Google. Úsalos para tareas de lenguaje, NO COMO FUENTE por el amor de Dios.

Este es un tema que ya discutí en un blog y video de YouTube anteriores; algunos incluso me dijeron que estaba diciendo tonterías; pero con cada paso que doy, puedo ver que no estaba equivocado en 2020, y no soy el único que cuestiona estas prácticas. Te recomiendo que revises mi punto de vista sobre ese tema también.

Conclusión

Permítanme revelar el secreto más grande de la industria de la IA hasta ahora:

Cada LLM desde GPT-3 es capaz de seguir instrucciones lingüísticas realmente bien, la única gran diferencia son las ventanas de contexto y su capacidad para memorizar patrones generales en entradas de texto.

Si estás de humor para seguir las tendencias, adelante, construye tu propio imperio personal, recauda millones de dólares, entrena tu propia IA con GPUs de Nvidia y ponla a competir. Pero recuerda, ninguna otra empresa va a ser transparente sobre cómo entrenan sus cosas.

Están ocultando cosas… solo ellos lo saben…

Siempre están tratando de sorprender a los inversores, y harán lo que esté en sus manos para impresionarlos. El enfoque está en generar números impresionantes en los benchmarks, incluso si estas métricas no reflejan con precisión las capacidades reales del modelo. Esta búsqueda incesante del bombo a menudo eclipsa las preocupaciones sobre las implicaciones éticas, el sesgo y la necesidad de una evaluación verdaderamente robusta.

La industria de la IA necesita ir más allá de los benchmarks defectuosos que actualmente dominan el campo. Si continuamos animando a los modelos a perseguir la memorización, fracasaremos como Google; pero si perseguimos benchmarks que mejoran las capacidades reales de los LLM, como el resumen, la comparación, las analogías y otras características lingüísticas; finalmente comprenderemos sus limitaciones y explotaremos sus beneficios.

Centrémonos en los benchmarks que realmente muestran las capacidades lingüísticas de los LLM.

Gracias por leer mi publicación. Si has llegado hasta aquí, por favor considera suscribirte a mi boletín, compartir, comentar o dejar un aplauso. Nos ayuda mucho y nos motiva a seguir creando contenido como este. Tenemos muchas cosas en marcha, pero nos encanta compartir contenido.

Tu interacción es un buen recordatorio de que tomarse un momento para escribir es valioso. No olvides revisar nuestras redes sociales y nuestra agencia si quieres ayuda para construir tu negocio alrededor de la IA.

--

--

Thcookieh

R&D | AI Consultant | You cannot compete with someone who loves what he does. It is in his instict. He does not compete. He lives.