"Todos los libros del mundo": Anthropic compró millones de libros, entrenó su IA y los destruyó, gracias a un ex jefe de Google Books
Publicado el 01/07/2025 por Diario Tecnología Artículo original
La empresa de inteligencia artificial Anthropic ha estado a juicio por utilizar contenido de terceros para entrenar a su reconocida IA, Claude. Esto incluye, entre otras cosas, el uso de millones de libros que Anthropic afirma haber comprado. Ahora hay nuevos datos gracias a la sentencia y hay uno que ha llamado especialmente la atención: lo que la empresa hizo con esos libros, tras usarlos.
Hace unos días, desde Genbeta ya publicábamos cómo los modelos de IA capaces de generar textos tienen cada vez más presencia en nuestro día a día. Y eso hace que mucha gente se plantee una pregunta crucial: ¿dónde aprendieron estas máquinas a escribir como lo hacen? Y estamos viendo que en muchos casos ha sido tomando textos y libros y hasta obras de arte, sin autorización de sus autores o sin pagar por los derechos.
Ahora, los documentos judiciales revelaron que la empresa de inteligencia artificial Anthropic gastó millones de dólares escaneando libros impresos para desarrollar Claude, su asistente de inteligencia artificial similar a ChatGPT y que es muy apreciada entre los desarrolladores. Y tras escanearlos, los destruyó.
Índice de Contenidos (4)
Cómo Anthropic entrenó su IA
Concretamente, Anthropic invirtió millones de dólares en el escaneo físico de libros impresos para crear Claude. En el proceso, la empresa cortó millones de libros impresos de sus encuadernaciones, los escaneó a archivos digitales y desechó los originales con el único fin de entrenar a su IA.
Las 32 páginas de la sentencia cuentan la historia de cómo, en febrero de 2024, la empresa contrató a Tom Turvey, exdirector del proyecto de escaneo de libros de Google Books, y le encargó obtener "todos los libros del mundo".
Esta contratación estratégica parece haber sido diseñada para replicar el exitoso enfoque de digitalización de libros de Google: la misma operación de escaneo que superó las impugnaciones de derechos de autor y sentó precedentes clave de uso legítimo (ya fue polémico en su momento, con demandas incluidas).
Según la información hecha pública ahora, si bien el escaneo y la destrucción posterior "es una práctica común en algunas operaciones de digitalización de libros, el enfoque de Anthropic fue algo inusual" por la enorme cantidad de libros que se llegaron a escanear. En comparación a esto, para el proyecto de Google Books se usó un proceso para escanear millones de libros prestados de bibliotecas que luego se devolvían a su lugar, no se destruían.
"Lío legal, práctico y comercial"
El juez del caso, de nombre William Alsup dictaminó que esta operación de escaneo destructivo calificaba como uso legítimo, pero solo porque Anthropic había comprado legalmente los libros primero, destruido cada copia impresa después del escaneo y conservado los archivos digitales internamente en lugar de distribuirlos.
Cabe decir que, antes de esta estrategia, según la información hecha pública, Anthropic inicialmente optó otro camino: en la búsqueda de datos de entrenamiento de alta calidad, según el expediente judicial, Anthropic recopilaba versiones digitalizadas de libros copiados sin pagar por la licencia de copyright. Así podrían evitar lo que el director ejecutivo, Dario Amodei, denominó "un lío legal, práctico y comercial", refieréndose a negociaciones de licencias con las editoriales.
Pero para 2024, Anthropic había perdido la confianza en el uso de libros electrónicos sin licencia "por razones legales" y necesitaba una fuente más segura y ahí procedió a la compra de libros, escaneo y posterior destrucción.
La sentencia sienta un precedente
El tribunal ha concluido que la empresa es culpable por el uso de los "libros pirateados" pero que la compra de libros y su posterior escaneo fue legal.
La sentencia afirma que "antes de comprar libros para su biblioteca central, Anthropic descargó más de siete millones de copias piratas, no pagó nada y las conservó en su biblioteca incluso después de decidir que no las usaría para entrenar a su IA. Los autores argumentan que Anthropic debería haber pagado por estas copias piratas de la biblioteca".
Como recuerda el medio Tech Policy, que el juez federal de San Francisco dictaminase que Anthropic no violó la ley de derechos de autor al usar libros adquiridos para entrenar sus modelos de IA Claude, a pesar de no contar con la autorización de los autores individuales, sienta una victoria para la industria de la IA.
La industria de la IA necesita textos de calidad
Como recueda ArtTechnica, esto demuestra la necesidad de la IA por textos de calidad que, finalmente, han sido escritos por humanos. Las empresas del sector están construyendo sus IA de grandes modelos de lenguaje (LLM) para lo que necesitan aportar miles de millones de palabras a una "red neuronal".
La calidad de los datos de entrenamiento que se introducen en la red neuronal influye directamente en los resultados, por eso que los libros y artículos de calidad van a hacer que la herramienta final sea mucho mejor que si lo alimentan con comentarios que la gente deja de manera aleatoria en redes sociales.
Vía | Ars Technica y MEiNMMO
Imagen | Foto de Marcel Strauß en Unsplash
utm_campaign=01_Jul_2025"> Bárbara Bécares .