Revolution AI: EMO, La Evolución del Video en Vivo

Investigadores del Instituto de Computación Inteligente de Alibaba han desarrollado un nuevo sistema de inteligencia artificial llamado “EMO”, abreviatura de Emote Portrait Alive, que puede animar una sola foto de retrato y generar videos de la persona hablando o cantando de manera notablemente realista.

El sistema, descrito en un artículo de investigación publicado en arXiv, es capaz de crear movimientos faciales fluidos y expresivos y poses de cabeza que se ajustan de cerca a los matices de una pista de audio proporcionada. Esto representa un avance importante en la generación de videos de cabezas parlantes impulsados por audio, un área que ha desafiado a los investigadores de IA durante años.

“Las técnicas tradicionales a menudo no logran capturar todo el espectro de expresiones humanas y la singularidad de los estilos faciales individuales”, dijo el autor principal Linrui Tian en el artículo. “Para abordar estos problemas, proponemos EMO, un marco novedoso que utiliza un enfoque de síntesis de audio a video directo, evitando la necesidad de modelos 3D intermedios o puntos de referencia faciales”.

Convierte directamente el audio en video

El sistema EMO emplea una técnica de IA conocida como modelo de difusión, que ha demostrado una tremenda capacidad para generar imágenes sintéticas realistas. Los investigadores entrenaron el modelo en un conjunto de datos de más de 250 horas de videos de cabezas parlantes seleccionados de discursos, películas, programas de televisión y actuaciones de canto.

A diferencia de los métodos anteriores que dependen de modelos faciales 3D o formas de mezcla para aproximar los movimientos faciales, EMO convierte directamente la forma de onda de audio en cuadros de video. Esto le permite capturar movimientos sutiles y peculiaridades específicas de la identidad asociadas con el habla natural.

Según los experimentos descritos en el artículo, EMO supera significativamente a los métodos existentes de vanguardia en métricas que miden la calidad del video, la preservación de la identidad y la expresividad. Los investigadores también realizaron un estudio de usuario que encontró que los videos generados por EMO eran más naturales y emotivos que los producidos por otros sistemas.

Genera videos realistas de canto

Además de los videos de conversación, EMO también puede animar retratos cantantes con formas de boca apropiadas y expresiones faciales evocadoras sincronizadas con las voces. El sistema admite la generación de videos de una duración arbitraria basada en la longitud del audio de entrada.

“Los resultados experimentales demuestran que EMO es capaz de producir no solo videos de habla convincentes sino también videos de canto en varios estilos, superando significativamente a las metodologías existentes de vanguardia en términos de expresividad y realismo”

afirma el artículo

La investigación de EMO sugiere un futuro donde el contenido de video personalizado puede sintetizarse a partir de solo una foto y un clip de audio. Sin embargo, persisten preocupaciones éticas sobre el posible mal uso de esta tecnología para impersonar personas sin su consentimiento o difundir desinformación. Los investigadores dicen que planean explorar métodos para detectar videos sintéticos.

Vía | Alibaba’s new AI system ‘EMO’ creates realistic talking and singing videos from photos | VentureBeat