THE FACTS:

Un creador de contenido en YouTube ha iniciado una demanda colectiva contra OpenAI, alegando el uso no autorizado de transcripciones de videos de YouTube para entrenar sus modelos de inteligencia artificial (IA). David Millette, un usuario de YouTube de Massachusetts, presentó la demanda el viernes en el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California.

La denuncia acusa a OpenAI de transcribir de manera discreta los videos de Millette y otros creadores para entrenar sus modelos de IA, como el popular ChatGPT y otras herramientas de IA generativa, sin notificar ni compensar a los propietarios de los videos.

Millette, representado por el bufete de abogados Bursor & Fisher, afirma que OpenAI se benefició significativamente de estas transcripciones, violando las leyes de derechos de autor y los términos de servicio de YouTube, que prohíben el uso de videos para aplicaciones fuera de la plataforma. La demanda busca un juicio con jurado y más de 5 millones de dólares en daños para los usuarios y creadores de YouTube cuyos datos podrían haber sido utilizados sin permiso.

OpenAI | demanda colectiva | chainlatin.com

Los modelos de IA generativa, como los desarrollados por OpenAI, dependen de grandes conjuntos de datos para aprender y generar texto similar al humano basado en patrones en los datos. Estos modelos a menudo se entrenan utilizando datos disponibles públicamente de varias fuentes en línea. Las empresas defienden esta práctica bajo el principio de uso legítimo, aunque muchos titulares de derechos de autor no están de acuerdo, lo que ha provocado una ola de demandas para detener este uso de datos.

Las transcripciones de video se han convertido en una fuente de datos crucial a medida que otras fuentes de datos se vuelven menos accesibles. Según Originality.AI, más del 35% de los 1,000 sitios web más importantes del mundo bloquean el rastreador web de OpenAI, y la Iniciativa de Procedencia de Datos del MIT informa que alrededor del 25% de las fuentes de datos de alta calidad están restringidas, afectando a los principales conjuntos de datos de entrenamiento de IA. Epoch AI predice una posible escasez de datos para entrenar modelos de IA generativa entre 2026 y 2032 si las tendencias actuales continúan.

En abril, The New York Times reveló que OpenAI desarrolló su modelo de reconocimiento de voz, Whisper, para transcribir audio de videos y obtener datos adicionales de entrenamiento. Según The Times, Whisper se utilizó para transcribir más de un millón de horas de videos de YouTube, contribuyendo al entrenamiento del modelo GPT-4 de OpenAI. Esta acción podría haber violado las reglas de YouTube, según comentaron algunos empleados de OpenAI.

Otros gigantes tecnológicos también han sido implicados en el uso de transcripciones de YouTube para el entrenamiento de IA. En julio, Proof News informó que empresas como Anthropic, Apple, Salesforce y Nvidia utilizaron un conjunto de datos llamado The Pile, que incluye transcripciones de cientos de miles de videos de YouTube, a menudo sin el conocimiento o consentimiento de los creadores. Posteriormente, Apple aclaró que no tenía la intención de usar estos modelos para ninguna función de IA en sus productos.

Google, la empresa matriz de YouTube, también ha estado activa en el uso de transcripciones para el entrenamiento de modelos de IA. El año pasado, Google actualizó sus términos de servicio para permitir un uso más amplio de los datos de los usuarios para el entrenamiento de IA generativa, marcando un cambio significativo respecto a los términos anteriores.

Esta demanda llega en un momento desafiante para OpenAI, que también enfrenta una demanda de Elon Musk. La queja de Musk alega que OpenAI se ha desviado de su misión original sin fines de lucro al reservar tecnología avanzada para clientes comerciales, complicando aún más el panorama legal de OpenAI.

THE OUTCOME.

La demanda contra OpenAI destaca desafíos éticos y legales significativos en el campo en rápida evolución de la IA. El uso no autorizado de transcripciones de

YouTube para entrenar modelos de IA plantea preguntas sobre la propiedad de los datos, la privacidad y la compensación para los creadores de contenido. A medida que más titulares de derechos de autor se den cuenta de estas prácticas, la industria tecnológica podría enfrentar un escrutinio legal creciente y una demanda de regulaciones más estrictas.

A medida que las fuentes de datos se vuelven cada vez más restringidas, las empresas pueden necesitar innovar métodos alternativos para entrenar modelos de IA sin infringir los derechos de propiedad intelectual. El entorno regulatorio en evolución probablemente exigirá una gobernanza de datos más robusta y estrategias de desarrollo de IA éticas, impulsando a la industria hacia una mayor responsabilidad y equidad.

OpenAI | demanda colectiva | chainlatin.com | 1

YOUTUBER PRESENTA DEMANDA COLECTIVA POR ROBO DE DATOS CONTRA OPENAI