OpenAI, la compañía de investigación en inteligencia artificial cofundada por Elon Musk, ha dado un salto significativo en el campo de la creación de contenido multimedia con la presentación de Sora, un modelo de IA capaz de generar videos realistas a partir de indicaciones de texto.
En una reciente publicación en su blog, la compañía asegura que Sora es capaz de generar videos de hasta un minuto de duración.
“Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real”, dijo OpenAI en su publicación.
Recalcan que el video final puede mantener la calidad visual y el cumplimiento de las indicaciones del usuario.
OpenAI indicó que Sora está actualmente disponible para los miembros del equipo rojo, cuya misión es evaluar áreas críticas en busca de daños o riesgos.
“También estamos otorgando acceso a varios artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos”, comentaron.
En su presentación, destacan que Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende, no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico.
Al igual que los modelos GPT, Sora utiliza una arquitectura de transformador, lo que desbloquea un rendimiento de escalamiento superior.
Además de poder generar un vídeo únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un vídeo a partir de ella, animando el contenido de la imagen con precisión y atención al pequeño detalle. El modelo también puede tomar un vídeo existente y ampliarlo o completar los fotogramas faltantes.