Los Highlights de Mayo

Delfina Iriarte
Data & AI Accenture Argentina
4 min readMay 31, 2024

--

Las últimas novedades de AI que tenés que saber

Modelos OMNI

La presentación de GPT-4o por parte de OpenAI marca un avance significativo en la capacidad de los modelos de inteligencia artificial para trabajar con diferentes tipos de medios de manera más rápida, económica y precisa que sus predecesores. Este modelo, conocido como “omni” por su capacidad para manejar texto, imágenes, audio y video, representa un paso adelante en la integración de diferentes modalidades de información.

Sin embargo, el lanzamiento de GPT-4o no estuvo exento de controversias, con problemas internos en OpenAI y preocupaciones legales relacionadas con el uso de voces. A pesar de esto, el avance tecnológico que representa GPT-4o destaca la competencia entre las principales compañías de IA y promete abrir nuevas posibilidades para desarrolladores y usuarios en términos de aplicaciones multimodales más rápidas, económicas y precisas.

Link al artículo

Novedades en Google

No alcanza para hablar de todos los anuncios que hizo Google en el mes pasado pero para darnos una idea, este es un mega resumen.

Evento presentación de Google

En su evento, Google presento mejoras en su modelo multimodal grande Gemini 1.5 Pro, destacando el aumento de su ventana de contexto de entrada, así como nuevos modelos abiertos, un generador de video y un avance adicional en asistentes digitales. Además, los modelos Gemini impulsarán nuevas características en la Búsqueda de Google, Gmail y Android. Google también publicó protocolos para evaluar los riesgos de seguridad asociados con estos avances, estableciendo umbrales de riesgo y planes de mitigación.

Igual vamos a ser sinceros, la mejor parte de la presentación fue ver a Mark jugando con Music FX, un modelo generativo de música de Google, vestido con su bata de baño y gritando ‘Google’ cada dos segundos.

Link al artículo

Tendencias de uso en GenAI

Según un estudio realizado por la consultora tecnológica Filtered, la inteligencia generativa se usa principalmente para generar ideas. Además, se utiliza para proporcionar sugerencias específicas, como recomendar películas, sugerir destinos vacacionales y generar personajes para juegos de rol. Otros usos populares incluyen la edición de texto, el apoyo emocional, la inmersión en temas de nicho y la búsqueda de información técnica.

El análisis de Filtered examinó decenas de miles de publicaciones en foros en línea populares para recopilar anécdotas que describieran los usos de la IA generativa. Los analistas agruparon las publicaciones en una lista de los 100 usos más populares de la IA generativa y los clasificaron según su alcance y valor agregado.

Link al artículo

AI & Bioquímica

Google ha anunciado AlphaFold 3, la última versión del modelo de DeepMind, diseñada para predecir las estructuras tridimensionales no solo de proteínas, sino también de otras moléculas biológicamente activas, como el ADN, ARN así como las interacciones entre ellas.

AlphaFold 3 utiliza un modelo generativo que, partiendo de una secuencia de aminoácidos, representa moléculas como colecciones de átomos individuales para determinar sus posiciones en el espacio. El sistema emplea varios transformadores y un modelo de difusión para refinar las estructuras tridimensionales, entrenándose con conjuntos de datos que incluyen estructuras de proteínas, ADN y ARN en el Protein Data Bank. Los resultados muestran que AlphaFold 3 supera a modelos anteriores y programas no basados en aprendizaje automático en la predicción de formas y en la calidad de las interacciones moleculares.

Link al artículo

Una alternativa a los transformadores

Investigadores de la Universidad Carnegie Mellon y la Universidad de Princeton han desarrollado una arquitectura innovadora llamada Mamba, que mejora significativamente el rendimiento de los transformadores estándar en modelos con hasta 2 mil millones de parámetros. Mamba, una refinación de la arquitectura S4, puede producir tokens cinco veces más rápido y con mejor precisión que un transformador tradicional de tamaño similar, mientras procesa entradas de hasta un millón de tokens de longitud.

La arquitectura S4 se asemeja funcionalmente a las redes neuronales recurrentes (RNNs) pero con una eficiencia computacional superior. Mientras que los transformadores ven un aumento cuadrático en los requisitos de memoria y computación con el tamaño de la entrada, S4 mantiene un aumento lineal, lo que lo hace más manejable para secuencias largas. Mamba introduce un mecanismo de compuerta que permite al modelo procesar las partes más importantes de una entrada y omitir el resto, optimizando así la representación de estados internos y permitiendo el manejo de entradas más extensas.

Link al paper

--

--