Sora: Espectacular creación de vídeo a partir de texto

Sora es un modelo de texto a video. Puede generar videos de hasta un minuto de duración mientras mantiene la calidad visual y la adherencia a las indicaciones del usuario.

Hoy en día, Sora está disponible para evaluar áreas críticas en busca de daños o riesgos. También están otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo avanzar en el modelo para que sea más útil para los profesionales creativos.

Están compartiendo el progreso de la investigación desde el principio para comenzar a trabajar y recibir comentarios de personas ajenas a OpenAI y para dar al público una idea de qué capacidades de IA están en el horizonte.

Es capaz de generar escenas complejas

Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo entiende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico.

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que conservan con precisión los personajes y el estilo visual.

El modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y puede no comprender instancias específicas de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga una marca de mordisco.

Sora no está disponible en los productos de OpenAI

El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.

Toman varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. Están trabajando con los miembros del equipo rojo, expertos en áreas como la desinformación, el contenido de odio y los prejuicios, que probarán el modelo de forma adversa.

También están creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede saber cuándo Sora generó un video.

YouTube player

Su clasificador de texto comprobará y rechazará las indicaciones de entrada de texto que infrinjan nuestras políticas de uso, como las que solicitan violencia extrema, contenido sexual, imágenes de odio, semejanza de celebridades o la propiedad intelectual de otros. También han desarrollado clasificadores de imágenes sólidos que se utilizan para revisar los fotogramas de cada video generado para ayudar a garantizar que se adhiera a sus políticas de uso, antes de que se muestre al usuario.

Quieren involucrar a responsables políticos, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología. A pesar de las extensas investigaciones y pruebas, no se puede predecir todas las formas beneficiosas en que las personas usarán la tecnología, ni todas las formas en que las personas abusarán de ella. Es por eso que cren que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros a lo largo del tiempo.

Todos los videos fueron generados directamente por Sora sin modificaciones.

Avatar de Paco Gil
La IA es una tecnología en constante evolución que tiene el potencial de transformar muchos aspectos de nuestra vida.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *