Tenemos un gran problema con los agentes de IA: se equivocan el 70% de las veces

Publicado el 30/06/2025 por Diario Tecnología
Artículo original

Tenemos un gran problema con los agentes de IA: se equivocan el 70% de las veces

Los agentes de IA fallan más que una escopeta de feria. Eso es al menos lo que revela un reciente estudio de investigadores de la Universidad Carnegie Mellon (CMU) y la Universidad de Duke. Estos expertos han analizado el comportamiento de varios de ellos y los han puesto a prueba para comprobar si esto es un "mucho ruido y pocas nueces". Y de momento lo es.

La inspiración. Graham Neubig, profesor de CMU, explicaba en The Register cómo la inspiración había sido un artículo de 2023 de OpenAI. En él se hablaba de qué tipos de trabajos podrían ser reemplazados por sistemas de IA, pero como él decía "su metodología fue básicamente preguntarle a ChatGPT si esos trabajos podrían ser automatizados". En ese estudio precisamente quisieron comprobarlo pidiéndole a diversos agentes de IA que intentaran completar tareas que teóricamente deberían realizar profesionales de esos trabajos.

TheAgentCompany. Para realizar su estudio los investigadores crearon una compañía ficticia a la que llamaron The Agent Company y la usaron para que distintos modelos agénticos de IA trataran de completar diversas tareas. Esos sistemas debían ser capaces de utilizar el acceso a varios servicios como GitLab, Owncloud o RocketChat para ir realizando dichos trabajos, pero su rendimiento fue decepcionante.

Un 70% de errores. Los investigadores usaron dos entornos de prueba llamados OpenHands CodeAct y OWL-Roleplay y en ellos fueron probando los modelos de IA más importantes hoy en día. El mejor de todos ellos a día de hoy es Claude Sonnet 4, que logró resolver un 33,1% de las tareas propuestas. Por detrás están Claude 3.7 Sonnet (30,9%), Gemini 2.5 Pro (30,3%) y, mucho más lejos, unos desastrosos GPT-4o (8,6%), Llama-3.1-405b (7,4%) , Qwen-2.5-72b (5,7%) o Amazon Nova Pro v1.0 (1,7%). En el mejor de los casos los modelos pueden completar el 30% de las tareas pedidas, pero fallan en el 70%. O lo que es lo mismo: mucho ruido y pocas nueces según estos benchmarks.

Agentes incapaces. Durante esas pruebas los investigadores observaron diversos tipos de fallo en esos procesos de las tareas. Así, hubo agentes negándose a enviar un mensaje a colegas que formaban parte de la tarea, hubo también agentes incapaces de gestionar ventanas de popup durante las sesiones de navegación, e incluso agentes que engañaron o hicieron trampas. En uno de los casos, destacaron, un agente que debía consultar a una persona en RocketChat (una alternativa Open Source a Slack) no la encontró, así que "le cambió el nombre a otro usuario para darle el del usuario con el que debía contactar".

Pero van mejorando. Aun con esos problemas, la evolución va siendo positiva en el rendimiento de estos agentes de IA. Neubig y su equipo probaron un agente software que era capaz de resolver cerca del 24% de las tareas que involucraban la navegación web, la programación y algunas tareas relacionadas. Seis meses después probaron una nueva versión y lograron un 34% de tareas completadas.

Imperfectos pero útiles. No solo eso: estos investigadores apuntaron a que aun fallando tanto, los agentes de IA pueden seguir siendo útiles. En ciertos contextos, como el de la programación, una sugerencia parcial de código con el que resolver cierto fragmetno de un programa puede acabar siendo la base de una solución en la que luego el desarrollador pueda trabajar.

Cuidado donde los usas. Pero claro, que los agentes cometan tantos errores puede ser un problema en escenarios más sensibles a estos problemas. Así, si encargamos a un agente que escriba correos y los envía a las personas incorrectas, el resultado podría ser un desastre. Hay soluciones a la vista, como la creciente adopción del Model Context Protocol (MCP) que facilita la interacción entre servicios y modelos de IA para que la comunicación sea mucho más precisa y se puedan mitigar esos errores durante la ejecución autónoma de tareas.

Un benchmark que hace quedar mal a los modelos de IA. Para este experto una de las grandes decepciones es que las empresas que desarrollan modelos de IA no parecen interesadas en utilizarlo como métrica para mejorar sus desarrollos. Neubig sospechaba que "quizás es que es demasiado difícil y les hace quedar mal". Es algo similar a lo que pasa con el benchmark ARC-AGI2: es un test tan difícil para las IAs que hoy en día el mejor de todos los modelos de IA que tratan de superarlo es o3, que logra —atención— un 3% de tareas completadas.

En Salesforce coinciden. Ese estudio anterior se complementa con otro realizado por un grupo de investigadores de Salesforce. Crearon un benchmark propio específicamente destinado a comprobar cómo se comprobarían diversos modelos de IA a la hora de controlar tareas típicas en un CRM como los que desarrolla la firma. Su proyecto, llamado CRMArena-Pro, pone a prueba a esos agentes de IA en áreas como el departamento de ventas o de soporte.

De sustituir a trabajadores, nada. En sus conclusiones esos investigadores revelan cómo los modelos de IA "consiguen tasas de éxito globalmente modestas, típicamente alrededor del 58% en escenarios con un solo turno [de ejecución], pero con el rendimiento degradándose significativamente a aproximadamente el 35% en escenarios multiturno". De hecho, explicaban, "los agentes no están en general bien preparados ni tienen las cualificaciones esenciales para tareas complejas". El riesgo del que hablan algunos expertos, con un gran impacto de la IA en diversos puestos de trabajo, parece precipitado.

Un futuro complicado. A estos discretos resultados se une la predicción de la consultora Gartner. Según sus estudios, más del 40% de los proyectos de agentes de IA en desarrollo acabarán siendo cancelados a finales de 2027. La principal responsable del informe, Anushree Verma, indicaba que "En la actualidad, la mayoría de los proyectos de IA agéntica son experimentos o pruebas de concepto en fase inicial, impulsados principalmente por la publicidad y a menudo mal aplicados". El mensaje es claro: hay demasiadas expectativas en relación a los agentes de IA, pero el estado actual de la tecnología demuestra que hoy por hoy su aplicación es problemática y limitada.

Imagen | Sigmund

En Xataka | Una startup de IA con seis meses de vida y seis empleados se ha vendido por 80 millones de dólares. Vibe-coding, por supuesto

utm_campaign=30_Jun_2025"> Javier Pastor .