Wikipedia se está llenando de contenido generado por IA. Tanto, que ya tiene un equipo dedicado a encontrarlo

Publicado el 15/10/2024 por Diario Tecnología
Artículo original

Wikipedia se está llenando de contenido generado por IA. Tanto, que ya tiene un equipo dedicado a encontrarlo

El contenido generado por inteligencia artificial ha llegado a todos los rincones. Ha llegado a Amazon, donde han aparecido libros escritos por ChatGPT; lo ha hecho a algunos medios de comunicación, a artículos científicos, a los vídeos, a la música, a las imágenes, a la fotografía. A todo. La IA generativa ha llegado a todos lados. A la Wikipedia también, por supuesto.

Eso es un problema. Uno que la plataforma ya está atajando a través de un grupo de colaboradores dedicado a la búsqueda y eliminación de este contenido. Su nombre: WikiProject AI Cleanup.

Cómo funciona la Wikipedia. Es importante saber que la Wikipedia es abierta y que cualquier persona puede escribir y editar artículos de la misma. Eso tiene un punto positivo: si yo tengo información de algo o soy experto en alguna materia, puedo enriquecer la enciclopedia con mis aportaciones, ya sea agregando cosas nuevas, matizando cosas ya existentes o editando cosas erróneas. El punto negativo es que... cualquier persona puede editar la Wikipedia e inventarse lo que buenamente quiera. Si a eso le sumamos una herramienta como ChatGPT, el problema está más que servido.

La IA lo inunda todo. Según explica Ilyas Lebleu, fundador de la iniciativa WikiProject AI Cleanup, todo comenzó cuando empezaron a notar "la prevalencia de una escritura poco natural que mostraba claros signos de haber sido generada por IA". Usando ChatGPT consiguieron replicar estilos similares, por lo que blanco y en botella.

404Media se hace eco de un ejemplo buenísimo: el fuerte otomano Amberlisihar, una construcción levantada en el año 1466. En su página de Wikipedia, una con 2.000 palabras, se detalla su historia, su construcción, los materiales... todo lo que se podría esperar. La cosa es que ese fuerte no existe. Es falso, es fruto de una alucinación de la IA. Ese artículo se publicó en enero de 2023 y no se detectó hasta diciembre.

Lo mismo con las fotos. En este artículo de Darul Uloom Deoband se publicó esta imagen que, a priori, podría colar como una imagen de la época. Sin embargo, basta con fijarse en las manos (y realmente, en prestar un mínimo de atención al detalle) para descubrir que ha sido generada con IA. Fue eliminada porque "aporta poco al artículo, podría confundirse con una obra de arte contemporánea y es anatómicamente incorrecta". Cabe destacar que no se eliminan todas las imágenes generadas por IA, solo aquellas que son inadecuadas.

Start Of Darul Uloom Deoband Under A Pomegranate Tree By Ai La descripción de la imagen rezaba lo siguiente: "Una imagen creada por AI de los comienzos del seminario islámico de Darul Uloom Deoband. Esta imagen creada por AI imagina al profesor Mahmud Deobandi instruyendo a su alumno Mahmud Hasan Deobandi -el primer estudiante del seminario-, que más tarde sería conocido como «Shaykh al-Hind» y desempeñó un papel importante en el movimiento independentista indio". Pueden apreciarse claramente las pistas que indican que ha sido generada por IA en las manos, el libro y los pies, por ejemplo.

Voluntarios frente a la IA. WikiProject AI Cleanup es una "colaboración para combatir el creciente problema del contenido generado por IA sin fuentes y mal escrito en Wikipedia". Cualquiera puede apuntarse y participar. El objetivo no es restringir o eliminar el uso de la IA, sino "verificar que su resultado es aceptable y constructivo, y arreglarlo o eliminarlo en caso contrario".

No es una tarea fácil. Porque si en algo son buenos los LLMs es en ser capaces de pasar sus creaciones por textos legítimos. Sin embargo, pueden dejar algunas pistas. Frases como "como modelo de lenguaje de IA", descripciones ultragenéricas ("pueblo conocido por su fértiles tierras") o un tono excesivamente promocional o positivo son indicativos de que hay una IA detrás.

Los textos generados por IA pueden contener pistas que indican su origen sintético: un tono muy promocional, descripciones genéricas, etc.

Por otro lado, podría pensarse que detectar este tipo de contenido sería tan simple como ver si tiene o no referencias, pero la IA también es capaz de alucinarlas. Así lo explica el grupo en su página de Wikipedia, donde afirma que la IA puede inventarse fuentes u ofrecer fuentes existentes, pero totalmente offtopic.

Este artículo de la Historiografía Leninista fue escrito en su totalidad por una IA y citaba fuentes en ruso y húngaro que parecían reales, pero no existían. Fue eliminado. En este otro artículo del escarabajo Estola Albosignata se citaban fuentes francesas y alemanas reales que en ningún momento hablaban de dicho escarabajo. El artículo fue editado.

El reto de la IA. El uso de la IA no es malo en sí mismo, pero sí plantea un desafío si hablamos de credibilidad. Si la Wikipedia dejase que el contenido generado por IA campase a sus anchas, el contenido dejaría de ser fiable. Las IAs alucinan, se inventan información. Aunque parezca que todo tiene mucho sentido gracias a un uso correcto del lenguaje, es posible que los datos, las fechas, los nombres o los sucesos explicados no sean precisos.

Y esto no es solo cosa de la Wikipedia, sino que se corre el riesgo de que esa información falsa, inexacta o inventada se expanda por todo Internet. Y si hay información falsa en la Wikipedia, una de las grandes fuentes de datos de entrenamiento para los LLMs, es posible que los LLMs se entrenen con información imprecisa que provoque resultados más imprecisos, y así ad infinitum. De ahí que la labor de estos voluntarios sea tan importante.

Imagen de portada | Xataka

En Xataka | Descargar la Wikipedia: cómo bajar artículos o TODA la Wikipedia para leerla sin conexión

15_Oct_2024"> Jose García .