OpenAI, siguiendo los pasos de startups como Runway y gigantes tecnológicos como Google y Meta, está incursionando en la generación de video.
OpenAI presentó hoy a Sora, un modelo de inteligencia artificial generativa que crea video a partir de texto. Dada una breve —o detallada— descripción o una imagen fija, Sora puede generar escenas tipo película en 1080p con múltiples personajes, diferentes tipos de movimiento y detalles de fondo, asegura OpenAI.
Sora también puede “extender” clips de video existentes, haciendo lo mejor posible para completar los detalles faltantes.
“Sora tiene una comprensión profunda del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes”, escribe OpenAI en una publicación de blog. “El modelo entiende no solo lo que el usuario ha solicitado en la indicación, sino también cómo esas cosas existen en el mundo físico”.
Ahora, hay mucha grandilocuencia en la página de demostración de OpenAI para Sora —siendo el anterior ejemplo—. Pero las muestras seleccionadas del modelo lucen bastante impresionantes, al menos en comparación con otras tecnologías de texto a video que hemos visto.
Para empezar, Sora puede generar videos en una variedad de estilos (por ejemplo, fotorrealista, animado, blanco y negro) de hasta un minuto de duración —mucho más largo que la mayoría de los modelos de texto a video—. Y estos videos mantienen una coherencia razonable en el sentido de que no siempre sucumben a lo que me gusta llamar “extrañeza de IA”, como objetos moviéndose en direcciones físicamente imposibles.
Echa un vistazo a este recorrido por una galería de arte, todo generado por Sora (ignora la granulosidad —compresión de mi herramienta de conversión de video-GIF—):
O esta animación de una flor floreciendo:
Diré que algunos de los videos de Sora con un sujeto humanoide —un robot parado contra un paisaje urbano, por ejemplo, o una persona caminando por un sendero nevado— tienen una calidad de videojuego, tal vez porque no hay mucho en el fondo. La extrañeza de la IA se cuela en muchos clips además, como autos que conducen en una dirección, luego se invierten repentinamente o brazos que se funden en una cubierta de edredón.
OpenAI —a pesar de todos sus superlativos— reconoce que el modelo no es perfecto. Escribe:
“[Sora] puede tener dificultades para simular con precisión la física de una escena compleja, y puede que no comprenda instancias específicas de causa y efecto. Por ejemplo, una persona podría darle un mordisco a una galleta, pero después, la galleta puede que no tenga una marca de mordida. El modelo también puede confundir detalles espaciales de una indicación, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que ocurren a lo largo del tiempo, como seguir una trayectoria de cámara específica”.
OpenAI está posicionando a Sora principalmente como una vista previa de investigación, revelando poco sobre qué datos se usaron para entrenar el modelo (excepto ~10,000 horas de video de “alta calidad”) y evitando hacer a Sora generalmente disponible. Su razón es el potencial de abuso; OpenAI señala correctamente que los actores malintencionados podrían hacer un mal uso de un modelo como Sora de múltiples maneras.
OpenAI dice que está trabajando con expertos para investigar el modelo en busca de vulnerabilidades y construyendo herramientas para detectar si un video fue generado por Sora. La empresa también dice que, si decide convertir el modelo en un producto de cara al público, se asegurará de que los metadatos de procedencia se incluyan en las salidas generadas.
“Nos comprometeremos con legisladores, educadores y artistas de todo el mundo para entender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología”, escribe OpenAI. “A pesar de la extensa investigación y pruebas, no podemos prever todas las formas beneficiosas en que las personas usarán nuestra tecnología, ni todas las formas en que las personas la abusarán. Por eso creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo”.
Vía | OpenAI’s newest model Sora can generate videos — and they look decent | TechCrunch
One thought on “Sora: Revolución en Generación de Video con IA Potente”