Nos dijeron que "la IA no copia", pero LLaMa 3.1 de Meta es capaz de recordar el 42% del primer libro de Harry Potter

Publicado el 16/06/2025 por Diario Tecnología

Artículo original

Durante años, las grandes tecnológicas se han defendido de las acusaciones de la industria editorial sosteniendo que los LLM (modelos de lenguaje, o modelos de IA generativa enfocada al texto) no 'copian' obras con copyright (ni ninguna otra), sino que se limitan a aprender patrones y estructuras de lenguaje.

Sin embargo, un reciente estudio pone ahora esta afirmación en entredicho. Investigadores varias universidades estadounidenses han demostrado que LLaMa 3.1, el modelo más reciente de Meta, ha memorizado hasta el 42% de "Harry Potter y la piedra filosofal", primera entrega de la famosa saga de fantasía juvenil.

Esta conclusión no sólo podría afectar a cómo entrena sus modelos de IA la industria, sino que podría tener también profundas repercusiones legales.

¿Qué significa 'memorizar' un libro?

El estudio utilizó una metodología rigurosa: los investigadores dividieron libros en fragmentos de 100 tokens y evaluaron cuántas veces el modelo podía predecir correctamente los 50 tokens siguientes, dados los 50 anteriores, con una probabilidad superior al 50%. Este umbral es exigente: implica que el modelo asigna una probabilidad altísima (en promedio, 98.5%) a cada palabra que sigue.

La sorpresa fue mayúscula: LLaMa 3.1 70B acertó secuencias completas del primer libro de Harry Potter en un 42% de los casos. Esto contrasta con su predecesor LLaMa 1, que sólo recordaba el 4,4% del mismo texto.

¿Cómo es posible que una IA recuerde tanto?

Los modelos como LLaMa 3.1 no funcionan como simples máquinas de predicción: están entrenados con cantidades colosales de datos. Así, LLaMa 3.1 fue expuesto a unos 15 billones de tokens durante su entrenamiento, más de diez veces que su versión anterior. Esto multiplica las probabilidades de que repita fragmentos literales de su conjunto de entrenamiento.

Además, muchas obras protegidas están fácilmente disponibles en Internet a través de bibliotecas no autorizadas como LibGen. Recientes documentos judiciales indican que Meta habría usado estas fuentes deliberadamente, incluso después de que ingenieros expresaran preocupaciones internas como:

"No parece correcto estar descargando torrents desde un equipo corporativo".

En Genbeta

Meta entrenó a su chatbot usando libros con copyright sacados de una web de descargas. Y todo con el visto bueno de Zuckerberg

¿Es esto una anomalía o una tendencia?

Uno de los hallazgos más significativos es que esta memorización no es uniforme. LLaMa 3.1 recuerda con mucha más facilidad libros extremadamente populares (como El Hobbit, 1984 o el que nos ocupa) y mucho menos los títulos más oscuros.

Por ejemplo, el modelo solo memorizó el 0,13% de 'Sandman Slim', una novela de 2009 escrita por Richard Kadrey, quien es irónicamente uno de los participantes en la demanda colectiva de escritores contra Meta.

Esto plantea, claro, un problema legal interesante: si los modelos memorizan textos populares, pero no los menos conocidos, ¿tienen todos los autores afectados un caso igual de sólido en una demanda conjunta?

La gran batalla legal

La controversia legal se centra en tres enfoques sobre cómo el entrenamiento de IA podría infringir derechos de autor:

El acto de entrenar ya es una infracción porque implica hacer copias digitales de obras protegidas.
El modelo resultante es una obra derivada ilegal si incorpora partes sustanciales del contenido.
La salida del modelo (output) infringe cuando reproduce texto protegido.

El estudio aporta una evidencia contundente a favor del segundo punto: que el propio modelo contiene partes sustanciales de obras protegidas. De hecho, un informe reciente de la Oficina de Derechos de Autor de EE. UU. respalda esta interpretación, al afirmar que los pesos de un modelo podrían considerarse copias infractoras si reproducen "porciones relevantes de contenido protegido".

¿Y ahora, qué?

Con este descubrimiento, el argumento enarbolado por las tecnológicas de que la memorización era un 'comportamiento marginal', y que los modelos son solo 'estudiantes' estadísticos, queda desacreditado frente a la evidencia empírica de copiado literal.

En medio de esto, Meta enfrenta una crisis interna: ha perdido a la mayoría de los científicos que desarrollaron la primera LLaMa, ha retrasado el lanzamiento de su nuevo modelo 'Behemoth' de 2 billones de parámetros, y ha hecho una arriesgada inversión de 14.000 millones de dólares en Scale AI para asegurar su cadena de suministro de datos.

Vía | Understanding AI

Imagen | Marcos Merino mediante IA

En Genbeta | Acusan a Midjourney de plagiar y se filtra una lista de miles de artistas de todas las épocas que, supuestamente, se usan para la IA

utm_campaign=16_Jun_2025"> Marcos Merino .

Descarga la app de Diario Tecnología

Últimos posts

Contacto

info@diariotecnologia.es