¡OpenAI revoluciona audio sintético con potente clon vocal!

OpenAI, respaldada por Microsoft, es quizás más conocida por ChatGPT, su modelo de inteligencia artificial conversacional que causó revuelo cuando se lanzó públicamente en 2022 y que sigue siendo muy impresionante hasta el día de hoy. Desde entonces, la empresa también ha presentado Sora, un modelo de IA capaz de generar clips de video utilizando solamente entradas de texto. Si bien Sora aún no está disponible públicamente, OpenAI acaba de anunciar otro modelo de IA, y esta vez es capaz de generar audio sintético.

¿Qué tiene de especial el último modelo de OpenAI?

Lo destacado de la última invención de OpenAI es que puede generar audio sintético realista utilizando solo 15 segundos de una muestra de audio de entrada. Incluso puede generar audio en otros idiomas imitando los patrones de sonido de la muestra original. Llamado Voice Engine, este modelo es bastante pequeño, lo que hace que su capacidad para clonar audio sea aún más impresionante.

OpenAI ha estado trabajando en este proyecto desde al menos 2022, y es la tecnología que alimenta su API de conversión de texto a voz y las funciones de Voz y Lectura en Voz Alta de ChatGPT. En su sitio web, la empresa tiene ejemplos impresionantes donde el modelo ha generado piezas de audio extremadamente realistas sobre varios temas aprovechando 15 segundos de datos de muestra sobre un tema no relacionado. Puedes verlos aquí.

¿Cuáles son los posibles beneficios de Voice Engine?

OpenAI ha compartido varias aplicaciones potenciales de Voice Engine. Se puede utilizar para brindar asistencia de lectura a personas que no pueden leer, traducir contenido para llegar a audiencias globales y ofrecer servicios terapéuticos para personas que no pueden hablar. OpenAI ya ha probado todos estos escenarios mencionados en una vista previa privada a pequeña escala con socios seleccionados.

¿Cuándo lanzará OpenAI Voice Engine?

Pero quizás la parte más interesante del último anuncio de OpenAI es que la empresa aún no está lista para lanzar Voice Engine al público. La razón detrás de esto son las posibles preocupaciones de seguridad donde la voz de alguien puede ser clonada sin su consentimiento, lo cual es extremadamente problemático, especialmente en los Estados Unidos donde 2024 es año electoral. Durante su vista previa privada con socios, OpenAI se aseguró de que sus socios aceptaran sus políticas de uso, que incluían utilizar el audio de alguien solo después de obtener su consentimiento explícito, divulgar claramente cuándo se está utilizando audio sintético y marcar digitalmente el contenido generado por el modelo.

OpenAI solo lanzará Voice Engine una vez (o si) llegue a un acuerdo sobre las salvaguardas para el modelo. Hasta entonces, la empresa ha enfatizado que el mundo necesita entender hacia dónde se dirige esta tecnología. Por ahora, ha alentado a los sistemas bancarios a eliminar gradualmente el soporte para la detección de voz como medida de seguridad, y ha solicitado a la comunidad en general que se eduque a sí misma sobre el contenido engañoso generado por IA, explore políticas para proteger el uso de la voz de un individuo e implemente mecanismos que permitan a cualquiera identificar si una voz es humana o generada por IA.

Vía | OpenAI reveals impressive voice cloning model, and it’s scary good (xda-developers.com)