Demanda Colectiva Contra OpenAI por Uso de Transcripciones de YouTube

Un creador de contenido en YouTube está buscando presentar una demanda colectiva contra OpenAI, alegando que la compañía entrenó sus modelos de IA generativa con millones de transcripciones de videos de YouTube sin notificar ni compensar a los propietarios de los videos.

En una demanda presentada el viernes en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California, los abogados de David Millette, un usuario de YouTube de Massachusetts, alegan que OpenAI transcribió subrepticiamente los videos de Millette y otros creadores para entrenar los modelos que impulsan la plataforma de chatbot con inteligencia artificial de la compañía, ChatGPT, y otras herramientas y productos de IA generativa. Al recopilar estos datos, OpenAI “obtuvo significativas ganancias” del trabajo de los creadores, alega la demanda, mientras violaba la ley de derechos de autor y los términos de servicio de YouTube que prohíben el uso de videos para aplicaciones independientes de su servicio.

“Conforme [los] productos de IA [de OpenAI] se vuelven más sofisticados mediante el uso de conjuntos de datos de entrenamiento, se vuelven más valiosos para los usuarios actuales y potenciales, quienes compran suscripciones para acceder a los productos de IA [de OpenAI],” dice la demanda. “Sin embargo, gran parte del material en los conjuntos de datos de entrenamiento de OpenAI proviene de obras que fueron copiadas por OpenAI sin consentimiento, sin crédito y sin compensación.”

Millette, representado por el bufete de abogados Bursor & Fisher, busca un juicio con jurado y más de $5 millones en daños para todos los usuarios y creadores de YouTube cuyos datos podrían haber sido utilizados en el entrenamiento de OpenAI.

Los modelos de IA generativa como los de OpenAI no tienen inteligencia real. Alimentados con una gran cantidad de ejemplos (por ejemplo, películas, grabaciones de voz, ensayos), los modelos “aprenden” cuán probable es que ocurra un dato basado en patrones, incluyendo el contexto de cualquier dato circundante.

La mayoría de los modelos se entrenan con datos obtenidos de sitios web públicos y conjuntos de datos de toda la web. Las compañías argumentan que el uso justo protege sus esfuerzos para recopilar datos indiscriminadamente y usarlos para entrenar modelos comerciales. Sin embargo, muchos titulares de derechos de autor no están de acuerdo y están presentando demandas para detener esta práctica.

Las transcripciones de videos se han convertido en un ingrediente clave para los datos de entrenamiento a medida que otras fuentes de datos se agotan, por así decirlo.

Más del 35% de los 1,000 principales sitios web del mundo ahora bloquean el rastreador web de OpenAI, según datos de Originality.AI. Y alrededor del 25% de los datos de fuentes “de alta calidad” han sido restringidos de los principales conjuntos de datos utilizados para entrenar modelos de IA, según un estudio de la Iniciativa de Procedencia de Datos del MIT. Si la tendencia actual de bloqueo de acceso continúa, el grupo de investigación Epoch AI predice que los desarrolladores se quedarán sin datos para entrenar modelos de IA generativa entre 2026 y 2032.

En abril, The New York Times informó que OpenAI creó su primer modelo de reconocimiento de voz, Whisper, con el propósito de transcribir audio de videos para recopilar datos adicionales de entrenamiento. Un equipo de OpenAI, que incluía al presidente de la compañía, Greg Brockman, transcribió más de un millón de horas de video de YouTube usando Whisper, según The Times, y utilizó las transcripciones para entrenar el modelo generador y analizador de texto GPT-4 de OpenAI.

Algunos empleados de OpenAI discutieron cómo tal movimiento podría ir en contra de las reglas de YouTube, según el Times.

En julio, Proof News informó que empresas como Anthropic, Apple, Salesforce y Nvidia usaron un conjunto de datos llamado The Pile, que contiene subtítulos de cientos de miles de videos de YouTube, para entrenar modelos de IA generativa. Muchos creadores de YouTube cuyos subtítulos fueron utilizados en The Pile no estaban al tanto ni dieron su consentimiento para esto; Apple luego emitió una declaración diciendo que no tenía la intención de usar esos modelos para potenciar ninguna característica de IA en sus productos.

Google, la empresa matriz de YouTube, también ha buscado usar transcripciones para entrenar sus modelos.

El año pasado, Google amplió sus términos de servicio (ToS) en parte para permitir que la compañía aproveche más datos de usuarios para el entrenamiento de modelos de IA generativa. Bajo los antiguos términos de servicio, no estaba claro si Google podría usar datos de YouTube para crear productos más allá de la plataforma de videos. No es así bajo los nuevos términos, que aflojan considerablemente las restricciones.

Nos hemos puesto en contacto con OpenAI y Google para obtener comentarios sobre la demanda colectiva y actualizaremos este artículo si responden.

Ha sido un comienzo de mes difícil para OpenAI.

El lunes, Elon Musk, CEO de Tesla y X, presentó una nueva demanda contra OpenAI y el CEO Sam Altman, acusando a la compañía de abandonar su misión original sin fines de lucro al reservar algunas de sus tecnologías más sofisticadas para clientes comerciales. Musk hizo las mismas afirmaciones en una demanda de febrero contra OpenAI, pero la nueva demanda alega que OpenAI está participando en actividades de extorsión.

Vía | YouTuber files class action suit over OpenAI’s scrape of creators’ transcripts | TechCrunch