OpenAI presenta GPT-4o, chatbot de voz y aplicaciones

OpenAI, la empresa desarrolladora de ChatGPT, anunció su nuevo modelo de inteligencia artificial GPT-4o, donde la “O” significa “omnimodelo”. Este anuncio se realizó durante una transmisión en vivo de actualización de productos de primavera, junto con una serie de actualizaciones, incluyendo un chatbot de voz.

OpenAI actualizó sus aplicaciones móviles inmediatamente después de los anuncios y también lanzó una aplicación de escritorio para ChatGPT. La empresa enfatizó las mejoras en la experiencia del usuario, lo que, según afirman, permite a las personas concentrarse mejor en las conversaciones que tienen con ChatGPT.

“Durante los últimos años, nos hemos centrado mucho en mejorar la inteligencia de estos modelos, y se han vuelto bastante buenos”, dijo Mira Murati, directora de tecnología de OpenAI. “Pero esta es la primera vez que realmente estamos dando un gran paso adelante en cuanto a facilidad de uso”.

La transmisión en vivo destacó un enfoque simplificado e integral de la inteligencia artificial generativa. Un sistema “omnimodelo”, o multimodal de forma nativa, hace todo dentro de su aplicación central en lugar de coordinar entre GPT para texto, GPT Vision para imágenes, y así sucesivamente.

“Creemos que es muy, muy importante que las personas tengan una sensación intuitiva de lo que puede hacer la tecnología, por lo que realmente queremos combinarla con una comprensión más amplia”, dijo Murati.

Ella señaló que GPT-4o estará disponible tanto para los usuarios gratuitos como de pago de ChatGPT, así como para los usuarios de la API de ChatGPT. Murati agregó que los suscriptores de pago de ChatGPT seguirán teniendo acceso hasta cinco veces la capacidad del sistema de los usuarios gratuitos. Dijo que todos deberían poder acceder a las herramientas de OpenAI.

“Siempre estamos encontrando formas de reducir esa fricción, y recientemente, hicimos que ChatGPT esté disponible sin el flujo de registro”, señaló. En abril, OpenAI permitió a los usuarios acceder a ChatGPT 3.5 sin registrarse.

Luego, OpenAI mostró la capacidad de ChatGPT para mantener una conversación casual en tiempo real con los usuarios, demostrando una variedad de tonos y emociones. La demostración incluyó a ChatGPT cantando, riendo y bromeando con los ingenieros de OpenAI. La empresa también afirmó que ChatGPT ahora puede determinar el estado emocional de un usuario usando la cámara frontal del teléfono móvil.

Una nueva publicación de blog delineó los principales desarrollos anunciados hoy, encabezados por una “interacción humano-computadora mucho más natural”.

“Acepta como entrada cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen”, escribió la empresa. “Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo que es similar al tiempo de respuesta humano en una conversación”.

Incluso antes de los anuncios de hoy, los entusiastas de la inteligencia artificial y la tecnología sugerían que un chatbot de voz alimentado por un modelo de IA de próxima generación haría realidad los compañeros personales descritos en la película de ciencia ficción “Her”, incluido el CEO de OpenAI, Sam Altman, en una críptica publicación de Twitter de una sola palabra.

Utilizando la aplicación de escritorio de ChatGPT, los ingenieros de OpenAI mostraron que se podía copiar código de software en ChatGPT, lo que permitía al ingeniero chatear con ChatGPT sobre él. En la demostración, OpenAI también mostró la capacidad de ChatGPT para realizar traducciones de idiomas en tiempo real en 20 idiomas. También se mostró a ChatGPT explicando un problema matemático después de que se envió una foto de la ecuación a la aplicación.

OpenAI y la industria de inteligencia artificial generativa en general se han comprometido públicamente a combatir el uso de su tecnología en la creación de deepfakes generados por IA. OpenAI reconoció hoy que GPT-4o presenta nuevos desafíos de seguridad dados sus capacidades de audio y visión en tiempo real.

“Nuestro equipo ha estado trabajando arduamente para descubrir cómo crear mitigaciones contra el mal uso”, dijo Murati. “Continuamos trabajando con diferentes partes interesadas – desde el gobierno, los medios, el entretenimiento, los equipos de pruebas ofensivas y la sociedad civil – para descubrir la mejor manera de presentar estas tecnologías al mundo”.

Desde principios de mes habían circulado rumores sobre el gran anuncio de OpenAI, que iban desde el lanzamiento de GPT-5, ChatGPT impulsando la nueva versión de Siri de Apple e inteligencia artificial para búsquedas antes del anticipado anuncio de Google el 14 de mayo. El viernes, Bloomberg informó que OpenAI y Apple cerraron un acuerdo que traería la tecnología de OpenAI al iPhone.

El CEO de OpenAI, Sam Altman, acudió a Twitter el viernes para calmar las aguas, tuiteando: “No es GPT-5, no es un motor de búsqueda, ¡pero hemos estado trabajando duro en algunas cosas nuevas que creemos que a la gente le encantarán! Para mí, se siente como magia”.

Fundada en 2015 por Sam Altman, Elon Musk, Ilya Sutskever, Greg Brockman, Trevor Blackwell, Vicki Cheung, Andrej Karpathy, Durk Kingma, Jessica Livingston, John Schulman, Pamela Vagata y Wojciech Zaremba, OpenAI y su enormemente popular ChatGPT, lanzado en noviembre de 2022, han dominado la conversación en torno a la inteligencia artificial generativa.

Con estrechos vínculos e inversiones de Microsoft, el ChatGPT y Dall-E 3 de OpenAI se han integrado en la suite de herramientas Office 365 de Microsoft y en el nuevo asistente de IA Copilot.

En marzo, Musk demandó a OpenAI y Altman, alegando que el desarrollador de IA había priorizado los intereses comerciales de Microsoft sobre el bien público.

Vía | OpenAI Shows Off Voice Chatbot, Touts New GPT-4o AI Model – Decrypt