Anrew Ng, pionero de la IA, sobre el futuro de la tecnología

9 min readJan 20, 2023

Es uno de los líderes mundiales en el campo de la inteligencia artificial, con un historial de ruta que muchos desearían poder contar. Fue pionero en el uso de unidades de procesamiento gráfico (GPU) para entrenar modelos de aprendizaje profundo a finales de la década de 2000 con sus alumnos de la Universidad de Stanford, cofundó Google Brain en 2011 y después trabajó durante tres años como científico jefe de Baidu, donde ayudó a crear el grupo de IA del gigante tecnológico chino. Por eso, cuando dice que ha identificado el próximo gran cambio en la inteligencia artificial, la gente le escucha.

Actualmente está enfocado en su compañía Landing AI, con la que creó una plataforma llamada LandingLens para ayudar a los fabricantes a mejorar la inspección visual con visión por ordenador. También se ha convertido en una especie de evangelizador de lo que denomina el movimiento de la IA centrada en los datos, que según él puede aportar soluciones de “datos pequeños” a grandes problemas de la IA, como la eficiencia, la precisión y el sesgo de los modelos.

Recientemente habló sobre algunos de estos tópicos, las tendencias emergentes en los grandes modelos, y sus perspectivas sobre el futuro de la inteligencia artificial, con IEEE Spectrum. De esta ronda de preguntas y respuestas extraeremos lo que consideremos más importante y te lo compartiremos traducido para que puedas leer las ideas y predicciones de uno de los pensadores líderes en el campo de la inteligencia artificial.

La entrevista comenzó de lleno con una de las problemáticas más relevantes en la IA, el futuro de los grandes modelos: Los grandes avances en el aprendizaje profundo de la última década han sido impulsados por modelos cada vez más grandes que procesan cantidades cada vez mayores de datos. Algunos sostienen que se trata de una trayectoria insostenible. ¿Está de acuerdo en que no puede seguir así?

Andrew Ng: Es una gran pregunta. Hemos visto modelos fundacionales en PNL [procesamiento del lenguaje natural]. Me entusiasma la idea de que los modelos de PLN crezcan aún más y también el potencial de crear modelos básicos en visión por ordenador. Creo que todavía hay muchas señales por explotar en el vídeo: Aún no hemos podido crear modelos básicos para vídeo debido al ancho de banda informático y al coste del procesamiento de vídeo, a diferencia del texto tokenizado. Así que creo que este motor de ampliación de algoritmos de aprendizaje profundo, que lleva funcionando unos 15 años, todavía tiene fuelle. Dicho esto, sólo se aplica a ciertos problemas, y hay un conjunto de otros problemas que necesitan soluciones de datos pequeños.

Cuando dice que quiere un modelo base para la visión por ordenador, ¿a qué se refiere?

Ng: Es un término acuñado por Percy Liang y algunos de mis amigos de Stanford para referirse a modelos muy grandes, entrenados con conjuntos de datos muy grandes, que pueden ajustarse para aplicaciones específicas. Por ejemplo, GPT-3 es un ejemplo de modelo básico [para la PNL]. Los modelos básicos son muy prometedores como nuevo paradigma de desarrollo de aplicaciones de aprendizaje automático, pero también plantean problemas a la hora de garantizar que sean razonablemente justos y no estén sesgados, sobre todo si muchos de nosotros vamos a construir sobre ellos.

¿Qué tiene que pasar para que alguien construya un modelo básico para vídeo?

Ng: Creo que hay un problema de escalabilidad. La potencia de cálculo necesaria para procesar el gran volumen de imágenes de vídeo es considerable, y creo que por eso los modelos de base han surgido primero en PNL. Muchos investigadores están trabajando en ello, y creo que estamos viendo los primeros indicios del desarrollo de modelos de este tipo en visión por ordenador. Pero estoy seguro de que si un fabricante de semiconductores nos diera 10 veces más potencia de procesador, podríamos encontrar fácilmente 10 veces más vídeo para construir tales modelos para la visión.

Dicho esto, gran parte de lo que ha sucedido en la última década es que el aprendizaje profundo se ha producido en empresas orientadas al consumidor que tienen grandes bases de usuarios, a veces miles de millones de usuarios, y por lo tanto conjuntos de datos muy grandes. Aunque ese paradigma de aprendizaje automático ha generado mucho valor económico en el software de consumo, creo que esa receta de escala no funciona en otros sectores.

A continuación el entrevistador no ahorró un poco de ironía al mencionarle a Ng que el mismo participó en una iniciativa como la que menciona, una gran empresa enfocada en los millones de consumidores que la usaban, una división de Google: “Es curioso oírle decir eso, porque sus primeros trabajos fueron en una empresa orientada al consumidor con millones de usuarios.”

Ng: Hace más de una década, cuando propuse iniciar el proyecto Google Brain para utilizar la infraestructura informática de Google para construir redes neuronales muy grandes, fue un paso controvertido. Un alto cargo me llevó aparte y me advirtió de que poner en marcha Google Brain sería malo para mi carrera. Creo que pensó que la acción no podía limitarse a la ampliación, sino que yo debía centrarme en la innovación arquitectónica.

Recuerdo que cuando mis estudiantes y yo publicamos el primer artículo del taller NeurIPS en el que defendíamos el uso de CUDA, una plataforma de procesamiento en GPU, para el aprendizaje profundo, otra persona de alto nivel en IA se sentó conmigo y me dijo: “CUDA es realmente complicado de programar. Como paradigma de programación, parece demasiado trabajo”. Conseguí convencerle; a la otra persona no.

Entrevistador: Supongo que ahora ambos están convencidos.

Ng: Creo que sí.

En el último año, cuando hablaba con la gente sobre el movimiento de la IA centrada en los datos, he tenido recuerdos de cuando hablaba con la gente sobre el aprendizaje profundo y la escalabilidad hace 10 o 15 años. En el último año, he estado recibiendo la misma mezcla de “no hay nada nuevo aquí” y “esto parece la dirección equivocada”.

Enfocándose en un movimiento del que Ng es uno de los principales altavoces el etrevistador le preguntó sobre su convicción en la inteligencia artificial data-céntrica: “¿Cómo define la IA centrada en los datos y por qué la considera un movimiento?”

Ng: La IA centrada en los datos es la disciplina que consiste en diseñar sistemáticamente los datos necesarios para crear con éxito un sistema de IA. Para crear un sistema de IA, hay que implementar un algoritmo, por ejemplo una red neuronal, en código y luego entrenarlo con el conjunto de datos. El paradigma dominante en la última década era descargar el conjunto de datos mientras uno se centraba en mejorar el código. Gracias a ese paradigma, en la última década las redes de aprendizaje profundo han mejorado significativamente, hasta el punto de que para muchas aplicaciones el código -la arquitectura de la red neuronal- es básicamente un problema resuelto. Así que, para muchas aplicaciones prácticas, ahora es más productivo mantener fija la arquitectura de la red neuronal y, en su lugar, encontrar formas de mejorar los datos.

Cuando empecé a hablar de esto, hubo muchos profesionales que, de forma totalmente apropiada, levantaron la mano y dijeron: “Sí, llevamos 20 años haciendo esto”. Este es el momento de tomar las cosas que algunos individuos han estado haciendo intuitivamente y convertirlas en una disciplina de ingeniería sistemática.

El movimiento de la IA centrada en los datos es mucho más grande que una empresa o un grupo de investigadores. Mis colaboradores y yo organizamos un taller sobre IA centrada en datos en NeurIPS, y me encantó el número de autores y ponentes que se presentaron.

Entrevistador: “Usted habla a menudo de empresas o instituciones que disponen de pocos datos con los que trabajar. ¿Cómo puede ayudarles la IA centrada en los datos?”

Ng: Se habla mucho de sistemas de visión construidos con millones de imágenes: una vez construí un sistema de reconocimiento facial con 350 millones de imágenes. Las arquitecturas creadas para cientos de millones de imágenes no funcionan con sólo 50 imágenes. Pero resulta que, si tienes 50 ejemplos realmente buenos, puedes construir algo valioso, como un sistema de inspección de defectos. En muchos sectores en los que no existen grandes conjuntos de datos, creo que hay que pasar de los grandes datos a los buenos datos. Tener 50 ejemplos cuidadosamente diseñados puede ser suficiente para explicar a la red neuronal lo que quieres que aprenda.

Entrevistador: “Cuando se habla de entrenar un modelo con sólo 50 imágenes, ¿se está tomando un modelo existente entrenado con un conjunto de datos muy grande y ajustándolo? ¿O te refieres a un modelo completamente nuevo diseñado para aprender sólo de ese pequeño conjunto de datos?”

Ng: Permítame que le describa lo que hace Landing AI. Cuando realizamos inspecciones visuales para fabricantes, a menudo utilizamos nuestra propia versión de RetinaNet. Se trata de un modelo preentrenado. Dicho esto, el preentrenamiento es una pequeña pieza del rompecabezas. La pieza más importante del rompecabezas es proporcionar herramientas que permitan al fabricante elegir el conjunto adecuado de imágenes [que utilizar para el ajuste fino] y etiquetarlas de forma coherente. Hay un problema muy práctico que hemos visto en la visión, la PNL y el habla, en el que ni siquiera los anotadores humanos se ponen de acuerdo sobre la etiqueta adecuada. En las aplicaciones de big data, la respuesta habitual ha sido: Si los datos tienen ruido, obtengamos muchos datos y el algoritmo los promediará. Pero si se pueden desarrollar herramientas que señalen los puntos en los que los datos son incoherentes y ofrezcan una forma muy específica de mejorar la coherencia de los datos, resulta ser una forma más eficaz de conseguir un sistema de alto rendimiento.

Por ejemplo, si tienes 10.000 imágenes de las que 30 son de una clase y esas 30 están etiquetadas de forma incoherente, una de las cosas que hacemos es crear herramientas para llamar tu atención sobre el subconjunto de datos que es incoherente. De este modo, se pueden reetiquetar rápidamente esas imágenes para que sean más coherentes, lo que mejora el rendimiento.

Entrevistador: “¿Podría este enfoque en datos de alta calidad ayudar con el sesgo en los conjuntos de datos? ¿Si se pueden seleccionar mejor los datos antes del entrenamiento?”

Ng: Muchísimo. Muchos investigadores han señalado que los datos sesgados son uno de los muchos factores que conducen a sistemas sesgados. Se han hecho muchos esfuerzos para diseñar los datos. En el taller NeurIPS, Olga Russakovsky dio una charla muy interesante sobre este tema. En la conferencia principal de NeurIPS, también me gustó mucho la presentación de Mary Gray, que se refirió a cómo la IA centrada en los datos es una pieza de la solución, pero no la solución completa. Nuevas herramientas como Datasheets for Datasets también parecen una pieza importante del rompecabezas.

Una de las herramientas más potentes que nos ofrece la IA centrada en los datos es la capacidad de diseñar un subconjunto de datos. Imaginemos que entrenamos un sistema de aprendizaje automático y descubrimos que su rendimiento es bueno para la mayor parte del conjunto de datos, pero que está sesgado sólo para un subconjunto de ellos. Si se intenta cambiar toda la arquitectura de la red neuronal para mejorar el rendimiento sólo en ese subconjunto, es bastante difícil. Pero si se puede diseñar un subconjunto de datos, se puede abordar el problema de una manera mucho más específica.

Después de un largo decurso sobre algunos de los procedimientos técnicos, estrategias y prioridades que enfrenta en su compañía y ve que son problemáticas centrales en la evolución de la inteligencia artificial, como la necesidad de entregar a los clientes para que ellos mismos puedan adaptar los modelos y sistemas de IA basados en sus propias necesidades, el entrevistador de IEEE culminó haciéndole una pregunta más abierta sobre el movimiento data céntrico y lo que pretende sobre su futuro en líneas más generales:

“¿Hay algo más que crea que es importante que la gente entienda sobre su trabajo o sobre el movimiento de la IA centrada en los datos?”

Ng: En la última década, el mayor cambio en la IA fue hacia el aprendizaje profundo. Creo que es muy posible que en esta década el mayor cambio sea hacia la IA centrada en los datos. Con la madurez de las arquitecturas de redes neuronales actuales, creo que para muchas de las aplicaciones prácticas el cuello de botella será si podemos obtener de forma eficiente los datos que necesitamos para desarrollar sistemas que funcionen bien. El movimiento de la IA centrada en los datos tiene una energía y un impulso tremendos en toda la comunidad. Espero que más investigadores y desarrolladores se pongan manos a la obra.

Anrew Ng, pionero de la IA, sobre el futuro de la tecnología

Written by Neura Pod Español