Sin libros escaneados (y descargados con torrent) no tendríamos IAs: una batalla legal está sacando a la luz cómo se han entrenado

Publicado el 26/06/2025 por Diario Tecnología
Artículo original

Sin libros escaneados (y descargados con torrent) no tendríamos IAs: una batalla legal está sacando a la luz cómo se han entrenado

Los modelos de IA capaces de generar textos tienen cada vez más presencia en nuestro día a día. Y eso hace que mucha gente se plantee una pregunta crucial: ¿dónde aprendieron estas máquinas a escribir como lo hacen? La respuesta es que lo han logrado 'leyendo' millones de libros durante su entrenamiento, en numerosos casos, sin autorización de sus autores.

Y no sólo eso: en casos como el de LLaMa, la IA de Meta, su entrenamiento tuvo lugar después de que la compañía recurrió sin miramientos a descargas masivas de libros desde bibliotecas online no autorizadas por los titulares de los derechos, como LibGen.

Recientes evidencias judiciales indican que la compañía de Zuckerberg habría insistido en recurrir a estas fuentes incluso después de que ingenieros expresaran dudas al respecto a nivel interno:

"No parece correcto estar descargando torrents desde un equipo corporativo".

Y ahora, tanto el uso de libros como el debatido origen de los mismos ha iniciado un interesante debate legal, y desembocado recientemente en diversas demandas aún por resolver ante los tribunales.

El caso Anthropic: ¿lectura o robo?

La reciente resolución del juez federal William Alsup en el caso contra Anthropic, la empresa detrás del modelo de lenguaje Claude, ha sido calificada de histórica: en su fallo de hace dos días, Alsup determinó que entrenar una inteligencia artificial con libros protegidos por derechos de autor puede constituir 'uso justo' (fair use) bajo la legislación estadounidense.

De hecho, el juez fue más allá y comparó el aprendizaje de los LLM (modelos de lenguaje de gran escala) con el proceso de un lector humano que estudia autores para desarrollar su propio estilo. En sus palabras, el uso de los libros por parte de la IA era "espectacularmente transformador", ya que no se trataba de copiar, sino de crear algo distinto.

Sin embargo, eso no significa que Alsup diera carta blanca a la industria: en el mismo fallo, condenó a Anthropic por haber acumulado más de 7 millones de libros descargados de fuentes no autorizadas para formar una biblioteca digital central, una práctica que calificó como una infracción directa del copyright. Aunque la empresa luego compró muchos de esos libros, eso no la exime de responsabilidad: se celebrará un juicio en diciembre para determinar los daños económicos.

Microsoft en el punto de mira

La decisión judicial sobre Anthropic contrasta con la situación que enfrenta Microsoft, ahora demandada por un grupo de reconocidos escritores estadounidenses, que alegan que la empresa utilizó versiones escaneadas extraoficialmente de casi 200.000 libros para entrenar su modelo 'Megatron' sin consentimiento ni compensación de los detentadores de los derechos.

La demanda afirma que esta práctica no solo vulnera derechos de autor, sino que también permite a la IA generar texto que imita el estilo, la sintaxis y los temas de los autores originales. Microsoft, que aún no ha emitido comentarios al respecto, se une así a una creciente lista de empresas tecnológicas, como OpenAI, Meta y la propia Anthropic, que enfrentan litigios por el uso no autorizado de contenidos protegidos.

No nos olvidemos de OpenAI

Si Microsoft y Anthropic han sido objeto de escrutinio judicial y mediático por el uso de obras protegidas en el entrenamiento de sus modelos, OpenAI —la empresa que popularizó la IA generativa con ChatGPT— no se queda atrás. Aunque ha intentado proyectar una imagen de cooperación y transparencia, lo que sabemos hasta ahora revela que también ha incurrido en prácticas similares a las de sus competidores. Y de hecho, se habría adelantado en el tiempo a los mismos.

Recientemente, de hecho, OpenAI confirmó haber eliminado dos conjuntos de datos fundamentales —'books1' y 'books2'— que se utilizaron para entrenar versiones tempranas de su modelo GPT-3: según documentos judiciales desclasificados en el marco de la demanda interpuesta por el Sindicato de Autores de EE. UU., estos datasets contenían probablemente más de 100.000 libros publicados, muchos con derechos de autor vigentes.

Ambos datasets representaban el 16% de los datos de entrenamiento de GPT-3, lo que equivale a unas 50.000 millones de palabras.

OpenAI sostiene que los datos fueron eliminados por "falta de uso" en 2022 y que sus modelos actuales —como GPT-4 o los ofrecidos a través de su API— no se entrenaron con esos conjuntos.

Todo apunta a que OpenAI, al igual que harían después otras tecnológicas, habría considerado que adquirir licencias individuales para cada obra era un obstáculo logístico y económico incompatible con la rapidez del desarrollo de sus modelos. La 'solución' habría sido simplemente entrenar con lo que estuviera disponible, sin importar el estatus legal de los textos.

¿Qué es el 'uso legítimo' y por qué importa?

La doctrina del 'fair use' (o 'uso legítimo' en español) permite el uso limitado de obras protegidas sin permiso del titular de los derechos en ciertos contextos, como la crítica, la enseñanza o la transformación creativa. En el caso de Anthropic, el juez Alsup considera que la IA no reproduce fragmentos reconocibles ni sustituye las obras originales en el mercado. En cambio, la transforma para crear textos nuevos, lo que se alinea con el espíritu de la ley: promover la creatividad y el progreso científico.

Aun así, no todo está dicho. La decisión de Alsup, aunque pionera, no es vinculante para otros tribunales. De hecho, se espera que la cuestión llegue al Tribunal Supremo de EE. UU., dada la cantidad de demandas similares pendientes.

Cuando la IA deja de aprender y empieza a copiar

La defensa más recurrente de las grandes tecnológicas frente a las acusaciones de plagio ha sido tajante: los modelos de lenguaje no copian, sino que "aprenden patrones". Sin embargo, recientemente investigadores de varias universidades estadounidenses demostraron que LLaMa 3.1, de Meta, ha memorizado literalmente hasta el 42% del libro Harry Potter y la piedra filosofal.

Esta capacidad de retención no es trivial ni accidental: el modelo acertó secuencias largas de texto con una precisión promedio del 98,5%, lo que implica no solo exposición, sino reproducción casi textual del contenido original. Cierto es que LLaMa 3.1 no recuerda todos los libros por igual. Tiende a memorizar mucho más aquellos títulos populares y ampliamente disponibles en sitios pirata como LibGen. Así, mientras recordaba casi la mitad de Harry Potter, solo retenía un 0,13% de una novela menos conocida como es 'Sandman Slim', escrita por Richard Kadrey, uno de los participantes en la demanda colectiva contra Meta.

¿Hasta qué punto el modelo contiene la obra?

El estudio plantea un desafío directo a la legalidad del modelo en sí mismo. Si los pesos de LLaMa 3.1 contienen representaciones explícitas de fragmentos protegidos, como sugiere también la Oficina de Derechos de Autor de EE. UU., el modelo podría considerarse una copia infractora, incluso si nunca genera esas frases de forma espontánea.

Y esto golpea el corazón mismo del argumento de "uso justo": porque no se trataría ya de un modelo que "aprendió a escribir", sino de algo muy similar a una base de datos camuflada bajo la apariencia de IA.

Imagen | Marcos Merino mediante IA

En Genbeta | El Gobierno británico quiere permitir a empresas de IA usar contenidos con copyright. Se han topado con Dua Lipa, Elton John y más 

utm_campaign=26_Jun_2025"> Marcos Merino .