OpenAI, empresa de ChatGPT, anuncia su nueva y disruptiva IA que hace videos tipo cine

Sora es capaz de generar escenas complejas con múltiples personajes y detalles precisos.

PERIODISTA16.02.2024 11:21 Actualizado: 17.02.2024 00:00

Comentar

OpenAI, la empresa detrás de ChatGPT, dio a conocer su último avance tecnológico: Sora, una nueva inteligencia artificial diseñada para crear videos tipo cine a partir de texto.

(Leer más: OpenAI establece un equipo para evaluar los riesgos de la Inteligencia Artificial).

"Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo", dice la compañía en su blog oficial.

Esta AI es capaz de generar videos de hasta un minuto de duración, manteniendo la calidad visual y cumpliendo con las indicaciones proporcionadas por el .

En una fase inicial, Sora está siendo utilizada por los del equipo rojo de OpenAI para evaluar áreas críticas en busca de daños o riesgos.

(Seguir leyendo: Sam Altman, de OpenAI, se sincera sobre el futuro de la inteligencia artificial).

Además, se está brindando a un selecto grupo de artistas visuales, diseñadores y cineastas para obtener comentarios que permitan mejorar el modelo y hacerlo más útil para los profesionales creativos.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

"Estamos compartiendo el progreso de nuestra investigación desde el principio para comenzar a trabajar y recibir comentarios de personas ajenas a OpenAI y para dar al público una idea de qué capacidades de IA están en el horizonte", añaden.

Sora se destaca por su capacidad para generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo.

(Le puede interesar: Sam Altman, de OpenAI, se sincera sobre el futuro de la inteligencia artificial).

Además, el modelo posee un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones. Asimismo, Sora puede crear múltiples tomas dentro de un solo video generado, conservando con precisión los personajes y el estilo visual.

Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024

Sin embargo, se reconocen algunas debilidades en el modelo actual. Por ejemplo, puede tener dificultades para simular con precisión la física de una escena compleja o comprender instancias específicas de causa y efecto.

Por ejemplo, alguien podría morder una galleta, pero luego, es probable que la galleta no presente ninguna marca de mordida.

(Puede ver: OpenAI anuncia que el contenido generado con ChatGPT y DALL-E 3 incluirá metadatos C2PA).

Asimismo, puede confundir los detalles espaciales de un mensaje y tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo.

¿Qué estrategias de seguridad implementará OpenAI?

Se están implementando una serie de medidas fundamentales antes de que Sora esté disponible en los productos de OpenAI. En este sentido, se está colaborando estrechamente con los del equipo rojo, expertos en áreas como la desinformación, el contenido de odio y los prejuicios, quienes someterán el modelo a rigurosas pruebas adversas.

Además, se están desarrollando herramientas para detectar contenido engañoso, como un clasificador de detección capaz de identificar cuándo Sora generó un video. Asimismo, se planea la inclusión de Metadatos C2PA en el futuro, en caso de que el modelo se despliegue en un producto de OpenAI.

(Continuar leyendo: Hackers vinculados a gobiernos de Rusia, Corea del Norte e Irán usan ChatGPT).

Por ejemplo, una vez que esté integrado en un producto de OpenAI, se implementará un clasificador de texto que verificará y rechazará las instrucciones de entrada que violen las políticas de uso, como aquellas que soliciten violencia extrema, contenido sexual, imágenes de odio, semejanza de celebridades o propiedad intelectual de terceros.

@aiforhumansshow OpenAI just announced Sora, its new text-to-video AI model and we’re not sure the world is ready for this. It feels so far past everything we’ve seen before and while we haven’t been able to try it yes, we’re salivating to see how well the coherence stands up over the one minute output times. The examples they’ve shared already are bonkers, everything from fanciful imagery to realistic looking wildlife to stock footage, this is going to really change a LOT about the way the world works with video going forward. Leave it to OpenAI to really break open the next huge AI expansion. More on this as it develops. #openai #SORA #aivideo #ai #breakingnews #techtok ♬ original sound - AI For Humans

Además, se están desarrollando sólidos clasificadores de imágenes para revisar los fotogramas de cada video generado, asegurando que se ajusten a las políticas de uso de OpenAI antes de ser mostrados al .

Para garantizar una implementación segura y responsable de esta tecnología, OpenAI está involucrando a responsables políticos, educadores y artistas de todo el mundo.

Aunque se realizaron extensas investigaciones y pruebas, se reconoce que no se pueden prever todas las formas en que las personas utilizarán esta tecnología, sea buena o mala.

(Le puede gustar: Una inteligencia artificial, 'peligro para la humanidad': razón del escándalo en OpenAI).

Por ello, se considera fundamental aprender del uso en el mundo real para continuar mejorando y lanzando sistemas de inteligencia artificial cada vez más seguros con el paso del tiempo.

Técnicas de investigación implementadas en esta nueva herramienta

En cuanto a las técnicas de investigación, Sora se presenta como un modelo de difusión que, de manera gradual, transforma un video comenzando con lo que parece ser ruido estático, eliminando este en múltiples pasos.

Esta capacidad se logra al proporcionar al modelo una previsión de múltiples fotogramas a la vez, resolviendo así un desafío importante para asegurar que un sujeto permanezca consistente incluso cuando se pierde de vista temporalmente.

(Leer más: La CMA del Reino Unido examina la asociación entre Microsoft y OpenAI).

Los videos e imágenes son representados como colecciones de unidades de datos más pequeñas llamadas ‘parches', cada una de las cuales es similar a un token en GPT.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024

Esta unificación en la representación de datos posibilita entrenar transformadores de difusión en una gama más amplia de datos visuales, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.

Sora se fundamenta en investigaciones previas en modelos DALL·E y GPT. Utiliza la técnica del subtitulado de DALL·E 3, la cual implica la generación de leyendas altamente descriptivas para los datos de entrenamiento visual.

(Seguir leyendo: OpenAI: el lucro y la velocidad se impusieron sobre la seguridad de la IA).

Gracias a esto, el modelo puede seguir de manera más fiel las instrucciones de texto del en el video generado.

Además de su capacidad para generar videos únicamente a partir de instrucciones de texto, este modelo puede tomar una imagen fija existente y producir un video a partir de ella, animando con precisión el contenido de la imagen y prestando atención a los pequeños detalles. También puede ampliar o rellenar fotogramas faltantes en un video existente.

Más noticias

- YouTube ya permite los remix de videos musicales en los shorts

- Google presenta el modelo de IA Gemini 1.5: estas son sus mejoras

- Así es la fortaleza que resguarda el 'poderoso cerebro' de internet para América Latina

*Este contenido fue escrito con la asistencia de una inteligencia artificial, basado en la información publicada por OpenAI, y contó con la revisión de la periodista y un editor.

Sigue toda la información de Tecnología en Facebook y X, o en nuestra newsletter semanal.