The Atlantic revela la base de datos musical que alimenta a la IA
Millones de canciones sin consentimiento expuestas: artistas reaccionan con indignación
22 de junio de 2026 · 4 min de lectura

El 18 de junio de 2026, The Atlantic lanzó una ampliación de su herramienta AI Watchdog, esta vez centrada en la música. La base de datos permite buscar si una canción forma parte de los cuatro datasets más utilizados para entrenar modelos de IA generativa como Suno. Estos datasets contienen entre 100.000 y 12 millones de canciones cada uno, sumando millones de temas de artistas que nunca dieron su consentimiento. La herramienta, basada en la investigación de Alex Reisner para The Atlantic, se suma a la versión original de AI Watchdog lanzada en septiembre de 2025, que documentaba libros, artículos académicos y vídeos de YouTube usados en entrenamiento de IA. Según The Verge, que cubrió la noticia el 20 de junio, la ampliación a la música representa un paso significativo en la transparencia del uso de datos protegidos por derechos de autor.
El origen de los datos
Según la investigación de Reisner, los datasets circulan desde hace años en la comunidad de desarrollo de IA y han sido descargados miles de veces. Google y Stability AI han confirmado haberlos utilizado en papers de investigación. Los dos más grandes, con 12 y 9 millones de canciones respectivamente, incluyen desde superestrellas globales como Taylor Swift y Bad Bunny hasta artistas independientes como DJ Sabrina the Teenage DJ. Los otros dos datasets superan los 100.000 temas cada uno. El origen de estos conjuntos de datos se remonta a proyectos académicos y de código abierto, como el dataset MusicCaps (10.000 pares de audio-texto) y otros recopilados mediante scraping de plataformas como YouTube y SoundCloud. Sin embargo, a diferencia de estos ejemplos académicos, los datasets identificados por The Atlantic contienen grabaciones comerciales completas, lo que eleva las implicaciones legales. El uso de estos datos por parte de empresas como Suno, que genera música a partir de texto, ha sido objeto de controversia desde 2024, cuando la RIAA presentó demandas contra Suno y Udio por infracción masiva de derechos de autor.
Reacciones de los artistas
La respuesta en redes sociales fue inmediata. DJ Sabrina the Teenage DJ descubrió 22 de sus temas en los datasets de Suno y declaró: "Es gracioso cómo hubo acusaciones de que mi música sonaba como IA antes de que estos datasets empezaran a usarse para generar basura". Backxwash afirmó: "Estoy 100% segura de que nunca di mi consentimiento". Sophia hjkl encontró 138 de sus canciones, casi todo lo que publicó entre 2017 y 2024. El catálogo incluye a Lady Gaga, Radiohead, Aphex Twin, Wu-Tang Clan y Bruce Springsteen, demostrando que nadie está exento. La magnitud del saqueo recuerda al caso de los libros de autores como J.K. Rowling y Stephen King utilizados para entrenar modelos de lenguaje, que también fueron documentados por The Atlantic en 2025. En aquel entonces, la herramienta AI Watchdog permitió a los autores buscar sus obras en datasets como Books3, lo que llevó a demandas y a un mayor escrutinio regulatorio. Ahora, los músicos se enfrentan a una situación similar, pero con la diferencia de que la generación de música con IA ya está comercializada, como demuestran las canciones virales generadas por Suno que imitan estilos de artistas famosos.
Implicaciones legales
Este caso se suma a una larga lista de controversias sobre el uso de datos protegidos por derechos de autor para entrenar IA. En Estados Unidos, varias demandas colectivas de artistas contra empresas de IA están en curso. La publicación de esta base de datos podría fortalecer los argumentos de los demandantes al demostrar el uso masivo de obras sin licencia. En particular, la demanda de la RIAA contra Suno y Udio, presentada en junio de 2024, alega que estas empresas copiaron grabaciones musicales sin autorización para entrenar sus modelos. La base de datos de The Atlantic proporciona evidencia concreta que podría ser utilizada en los tribunales. En la Unión Europea, la Directiva de Derechos de Autor exige transparencia en los datos de entrenamiento, pero su aplicación sigue siendo limitada. El Reglamento de IA de la UE, que entró en vigor en 2025, también impone requisitos de transparencia para los modelos de IA generativa, aunque la música no está explícitamente cubierta. En contraste, Japón ha adoptado un enfoque más permisivo, permitiendo el uso de obras protegidas para entrenamiento de IA sin necesidad de licencia, lo que ha generado críticas de la industria musical global.
¿Qué deben saber los lectores?
Para los músicos independientes, esta herramienta es una forma de verificar si su trabajo ha sido utilizado sin permiso. Para el público en general, es un recordatorio de que la IA generativa se construye sobre el trabajo no remunerado de creadores. La industria musical enfrenta un dilema: adaptarse a la nueva tecnología o exigir una compensación justa. Mientras tanto, empresas como Suno continúan operando en un vacío legal que este tipo de revelaciones busca llenar. El caso también pone de relieve la necesidad de un marco regulatorio global, ya que los datasets circulan internacionalmente y las leyes varían. Por ejemplo, en el Reino Unido, el gobierno ha propuesto una excepción para la minería de textos y datos con fines de investigación, pero no para uso comercial. En Australia, una investigación parlamentaria recomendó en 2025 que las empresas de IA obtengan licencias para usar contenido protegido. La herramienta de The Atlantic, aunque útil, es solo un primer paso hacia la transparencia que los artistas reclaman. Como señaló la artista Sophia hjkl: "138 canciones mías están ahí. Es como si hubieran robado mi discografía entera". La pelota está ahora en el tejado de los legisladores y los tribunales.
Puntos clave
- The Atlantic lanzó una herramienta que permite buscar canciones en cuatro datasets de entrenamiento de IA.
- Millones de canciones de artistas como Taylor Swift, Bad Bunny y músicos independientes aparecen sin consentimiento.
- Google y Stability AI han utilizado estos datasets en investigaciones.
- Artistas han expresado su indignación y exigen transparencia y compensación.
- El caso refuerza las demandas legales en curso contra empresas de IA generativa.
Preguntas frecuentes
¿Qué es la herramienta AI Watchdog de The Atlantic?
Es una base de datos pública que permite buscar si una canción, libro o video fue utilizado para entrenar modelos de IA. La versión musical se lanzó el 18 de junio de 2026.
¿Qué artistas están incluidos en los datasets?
Desde superestrellas como Lady Gaga y Bruce Springsteen hasta artistas independientes como DJ Sabrina the Teenage DJ y Backxwash.
¿Es legal entrenar IA con música sin permiso?
Depende de la jurisdicción. En EE.UU. hay demandas en curso; en la UE se requiere transparencia, pero la aplicación es limitada.
Fuentes utilizadas
Sigue leyendo
Comentarios
Sé el primero en comentar.