SORA — El modelo de texto a vídeo de OpenAI

Macusaya Yurika
Datapath
Published in
6 min readFeb 26, 2024

Sora es el nuevo modelo de inteligencia artificial generativa (Generative Artificial Intelligence) de OpenAI, es capaz de generar vídeos realistas y creativos de hasta un minuto de duración en alta definición a partir de instrucciones de texto.

Video 1: Sora Capabilities. Fuente: OpenAI Sora technical report

II. Contenido

SORA COMO SIMULADOR DEL MUNDO

OpenAI investiga el entrenamiento large-scale y es capaz de crear vídeos e imágenes con diversas duraciones y resoluciones.

Sora emplea una arquitectura de transformers en spacetime patches de códigos latentes para generar videos de alta calidad. La escalabilidad de los modelos de video promete simuladores versátiles del mundo.

El objetivo de Sora es crear modelos que sean capaces de simular el mundo físico.

CAPACIDADES

Duraciones, resoluciones y relaciones de aspecto variables.

  • Sora cuenta con Flexibilidad de muestreo con lo que crea contenido para diferentes dispositivos directamente en sus relaciones de aspecto nativas.
  • El equipo de Sora encontró que entrenar videos en sus proporciones nativas mejora la composición y el encuadre, así como podemos observar en la siguente imagen.
Imagen 1: Sampling flexibility. Fuente: OpenAi Sora technical report

Comprensión del lenguaje

Para entrenar sistemas de generación de texto a video, se requiere una gran cantidad de videos con subtítulos.

  • Sora aplica la técnica de resubtitulado de DALL·E 330 a los videos, utilizando un modelo de subtítulos descriptivo para mejorar la fidelidad del texto y la calidad de los videos.
  • Usa GPT para mejorar la precisión y extender breves mensajes de usuario a subtítulos detallados.

Indicaciones con imágenes y vídeos

  • Animando imágenes de DALL·E

Sora puede generar videos no solo a partir de texto, sino también de imágenes o videos existentes. Como se pude observar en la imagen 2, generado con el prompt : “Un perro Shiba Inu con boina y jersey de cuello alto negro” de Dall·E y posteriormente generando el video 2.

Imagen 2: DallE Image. Fuente: OpenAi Sora technical report
Video 2: Video generated-Image as input Fuente: OpenAi Sora technical report
  • Ampliar vídeos generados

Sora también es capaz de extender vídeos, ya sea hacia adelante o hacia atrás en el tiempo a partir de un segmento de un video generado.

  • Edición de vídeo a vídeo

Sora usa técnicas como SDEdit para editar estilos y entornos de vídeos sin instrucciones específicas (zero-shot).

Como podemos ver en la siguiente imagen con el video como input y la instruccion “cambia el escenario para estar en una exuberante jungla

Imagen 3: Editing video. Fuente: OpenAi Sora technical report
  • Conexión de vídeos

Sora permite interpolar suavemente entre dos videos, logrando transiciones sin problemas entre temas y composiciones distintas, como se muestra en el video 3.

Imagen 4: Screenshot Connecting videos- video 1, 2. Fuente: OpenAi Sora technical report
Video 3: Connecting videos result. Fuente: OpenAi Sora technical report
  • Generación de imágenes.

Sora tambiés es capaz de generar imágenes con variabilidad de tamaños.

Capacidades de simulación emergentes

Las capacidades emergentes de Sora al entrenarse a gran escala permiten simular aspectos de consistencia 3D, mantener coherencia a largo plazo y permanencia de objetos, interactuar con el entorno y simular mundos digitales. Estas habilidades sugieren que la expansión de modelos de vídeo es prometedora para desarrollar simuladores avanzados del mundo físico y digital, incluyendo objetos, animales y personas.

Video 4: 3D consistency videos. Fuente: OpenAi Sora technical report

Limitaciones

  • Puede tener dificultades con la simulación precisa de la física en escenas complejas.
  • Ocasionales incoherencias en detalles espaciales y descripciones precisas de eventos a lo largo del tiempo.
  • Apariciones espontáneas de objetos.

Por ejemplo, podría haber inconsistencias en la representación de eventos, como morder una galleta pero sin dejar una marca de mordida en la galleta.

Sobre el modelo

  • Convierte datos visuales en Patches

Al igual que los LLMs usan tokens, Sora utiliza patches visuales para representar eficazmente datos visuales. Estos patches, obtenidos mediante la compresión de videos en un espacio latente, se revelan como una representación escalable para entrenar modelos en diversos tipos de videos e imágenes.

Imagen 5: Turning visual data into patches. Fuente: OpenAi Sora technical report
  • Red de compresión de video (Video compression network)

Reduce la dimensionalidad de los datos visuales, generando una representación comprimida para que Sora pueda entrenar y generar videos y con un modelo decodificador que transforma los espacios latentes generados en píxeles.

  • Parches latentes del espacio-tiempo (Spacetime latent patches)

Se extraen spacetime patches de un video comprimido, actuando como transformers tokens. Así entrena con datos visuales de diversas resoluciones y duraciones, y en la inferencia controlar el tamaño de los videos generados.

  • Transformadores de escalado para generación de video (Scaling transformers)

Al recibir patches ruidosos como entrada, se entrena para predecir los patches “limpios” originales. La calidad de las muestras de video mejora durante el entrenamiento.

Image 6: Scaling transformers for video generation p1. Fuente: OpenAi Sora technical report
Image 7: Scaling transformers for video generation p2. Fuente: OpenAi Sora technical report

Seguridad y Disponilidad

El beta de Sora para Febrero de 2024 aún no cuenta con una lista de espera para otorgar accesos de prueba al público. Pero si se están realizando pruebas adversas con red teamers, expertos en áreas como desinformación, contenido perjudicial y sesgo.

¿Quieres ser uno de los primeros en probar la versión beta de Sora y unirte al equipo de evaluadores expertos? Aplica en OpenAI Red teaming network

A pesar de estas precauciones, OpenAI reconoce que no puede prever todas las formas en que la gente usará esta tecnología y está comprometida a aprender de su uso en el mundo real para mejorar la seguridad de los sistemas de IA con el tiempo.

Por parte de OpenAI se están desarrollando herramientas para detectar contenido engañoso generado por Sora.

Video 5: Sora Capabilities. Fuente: OpenAI Sora

Conclusiones

Sora representa un avance significativo en la generación de contenido visual a partir de texto, imágenes y videos. Sus capacidades emergentes, como la simulación de entornos 3D y la coherencia a largo plazo, muestran el potencial de escalabilidad en modelos de video para simular el mundo físico y digital de manera avanzada. Aunque presenta limitaciones, como desafíos en la simulación precisa de la física, su capacidad para realizar diversas tareas de edición y generar contenido creativo es impresionante!.

Siguientes pasos

  • Debemos profundizar en la investigación sobre el funcionamiento de los modelos generativos de contenido.
  • Aguardar con expectación el lanzamiento del modelo beta de Sora.
  • Aplicar, como se indicó anteriormente, existe la posibilidad de aplicar para integrarse al equipo Red Team. Esta oportunidad no solo brinda acceso a los modelos de OpenAI, sino también la posibilidad de contribuir con nuestras habilidades para mejorar continuamente estos modelos de inteligencia artificial.

Referencias

Gracias por leerme,

¿Quieres seguir aprendiendo y conectarte con nuestra comunidad? Te invitamos a unirte a nuestras redes sociales. ¡Síguenos en Instagram y LinkedIn para estar al tanto de las últimas noticias, tutoriales y recursos sobre tecnología y aprendizaje automático!

Datapath

Acelerando el talento LATAM en data, cloud, analytics e inteligencia artificial

⚪DISCORD: https://go.datapath.ai/Discord_IALatam

🔵Linkedin: https://go.datapath.ai/Linkedin

🟡Instagram: https://go.datapath.ai/Instagram

🔴Facebook: https://go.datapath.ai/Facebook

🟢Tiktok: https://go.datapath.ai/Tiktok

--

--