Demanda contra Apple por scraping ilegal de YouTube para entrenar IA: el caso del dataset YouTube Subtitles

En abril de 2026, tres canales de YouTube con más de 6,2 millones de suscriptores combinados presentaron una demanda contra Apple ante el Tribunal del Distrito Central de California. La acusación principal: la empresa tecnológica habría violado la DMCA (Digital Millennium Copyright Act) al acceder y utilizar ilegalmente millones de vídeos con derechos de autor de YouTube para entrenar sus modelos de inteligencia artificial.

Esta demanda no es un caso aislado. Forma parte de una serie de acciones legales iniciadas por el mismo grupo contra otras grandes empresas tecnológicas como Nvidia, Meta, ByteDance y Snap. Lo que une todos estos casos es un mismo origen: el dataset conocido como «YouTube Subtitles».

El dataset problemático: YouTube Subtitles

Compilado por la organización sin ánimo de lucro EleutherAI, el dataset YouTube Subtitles contiene los subtítulos de 173.536 vídeos provenientes de más de 48.000 canales diferentes. Entre los creadores afectados se encuentran nombres reconocidos como MIT, Harvard, MrBeast, PewDiePie, Marques Brownlee (MKBHD), Linus Tech Tips, Crash Course y Philosophy Tube.

Lo más preocupante del caso es que ninguno de estos creadores fue informado previamente sobre la recopilación y uso de sus contenidos. Los subtítulos, que representan horas de trabajo intelectual y creativo, fueron extraídos sin consentimiento para alimentar algoritmos de inteligencia artificial.

La violación de términos de servicio

El scraping masivo realizado para crear este dataset viola claramente los términos de servicio de YouTube, que prohíben específicamente el uso de medios automatizados para acceder al contenido de la plataforma. Curiosamente, EleutherAI reconoce esta violación en su propio documento técnico, pero justifica su acción argumentando que las herramientas de scraping ya eran suficientemente comunes en el sector.

Esta justificación plantea serias cuestiones éticas sobre cómo las organizaciones de investigación y las empresas tecnológicas abordan la recopilación de datos para entrenar modelos de IA. En Dogalyir, entendemos la importancia de los datos para el desarrollo tecnológico, pero siempre priorizamos métodos éticos y transparentes que respeten los derechos de los creadores.

La defensa de Apple y la respuesta de los creadores

Apple ha respondido a las acusaciones con una posición técnica: argumenta que no fue la empresa quien realizó el scraping directamente, sino un tercero (EleutherAI). Según esta línea de defensa, Apple simplemente utilizó un dataset disponible públicamente para fines de investigación y desarrollo.

Sin embargo, los creadores demandantes sostienen que utilizar datos obtenidos ilegalmente no exime de responsabilidad. Esta postura encuentra eco en las declaraciones de Marques Brownlee (MKBHD), quien expresó su frustración de manera directa:

«Pago un servicio por minuto para obtener transcripciones precisas de mis vídeos, que luego subo a YouTube. Empresas que rastrean transcripciones están robando trabajo pagado de más de una manera.»

Esta declaración subraya un punto crucial: los subtítulos no son simplemente texto generado automáticamente. Representan inversión económica, tiempo y esfuerzo creativo que merece protección legal.

El alcance del problema: no solo Apple

Aunque la demanda se centra en Apple, la realidad es que múltiples empresas tecnológicas han utilizado el dataset YouTube Subtitles para entrenar sus modelos de IA. Entre ellas se encuentran Anthropic, Nvidia, Salesforce, Amazon y ByteDance.

Este caso revela una práctica extendida en la industria: la recopilación masiva de datos sin el consentimiento adecuado de los creadores originales. El problema se agrava cuando consideramos que estos modelos de IA, una vez entrenados, pueden generar contenido que compite directamente con los creadores cuyos trabajos utilizaron sin permiso.

Implicaciones para el futuro de la IA y los derechos digitales

Esta demanda representa un punto de inflexión en la relación entre la inteligencia artificial y los derechos de propiedad intelectual. Plantea preguntas fundamentales:

¿Dónde está el límite entre el uso legítimo de datos para investigación y la violación de derechos de autor?
¿Qué responsabilidad tienen las empresas que utilizan datasets creados mediante métodos cuestionables?
¿Cómo pueden los creadores proteger su trabajo en una era de scraping automatizado?

En el sector tecnológico, donde la innovación avanza a velocidad exponencial, casos como este destacan la necesidad urgente de desarrollar marcos éticos claros para la recopilación y uso de datos. Las soluciones tecnológicas, como las que desarrollamos en Dogalyir, deben construirse sobre bases éticas sólidas que respeten tanto la innovación como los derechos individuales.

El panorama legal en evolución

La DMCA, aprobada en 1998, fue diseñada para abordar los desafíos del copyright en la era digital temprana. Sin embargo, el surgimiento de la inteligencia artificial y las técnicas de machine learning a gran escala presenta nuevos desafíos que las leyes actuales no anticiparon completamente.

Esta demanda podría establecer precedentes importantes sobre cómo se interpretan las violaciones de términos de servicio en el contexto del entrenamiento de IA. También podría influir en futuras legislaciones específicas para regular el uso de datos en el desarrollo de inteligencia artificial.

Reflexiones finales

El caso del dataset YouTube Subtitles y la demanda contra Apple ilustran una tensión creciente en el ecosistema tecnológico: el deseo de avanzar rápidamente en el desarrollo de IA versus la necesidad de respetar los derechos de los creadores de contenido.

A medida que las capacidades de la inteligencia artificial continúan expandiéndose, es fundamental que la industria tecnológica desarrolle prácticas más transparentes y éticas para la recopilación de datos. Esto no solo protege a los creadores, sino que también fortalece la confianza del público en las tecnologías emergentes.

En última instancia, el equilibrio entre innovación y ética determinará no solo el futuro legal de casos como este, sino también la dirección que tomará el desarrollo de inteligencia artificial en los próximos años.