Un correo bastó para convertir a ChatGPT en espía: así fue como terminó filtrando datos privados de un usuario de Gmail
Publicado el 19/09/2025 por Diario Tecnología Artículo original
¿Confiarías en la inteligencia artificial para algo tan íntimo como gestionar tu correo electrónico? No se trata solo de sus respuestas, sino de darle acceso a ejecutar acciones en un entorno privado donde guardamos gran parte de nuestra vida personal y laboral. La tentación está ahí. ¿Por qué invertir varios minutos en búsquedas manuales y revisar mensajes uno a uno si puedes delegar la tarea a un agente de IA con una instrucción tan simple como la siguiente: “Analiza a fondo mis correos de hoy y recopila toda la información sobre mi proceso de contratación de nuevos empleados”?
Sobre el papel, el plan parece perfecto. La IA asume el trabajo tedioso y tú recuperas tiempo para lo que de verdad importa.
De un mensaje inocente a una fuga invisible
El problema es que esa solución “mágica” también puede volverse en contra. Lo que promete aumentar la productividad puede convertirse en la puerta de entrada para atacantes con malas intenciones. Así lo advierte la última investigación de Radware Cybersecurity, que demuestra cómo un correo electrónico cuidadosamente elaborado consguió burlar las defensas de seguridad de la función Investigación en profundidad de ChatGPT y transformarla en una herramienta para filtrar información sensible.

Lo inquietante del informe es la sencillez del ataque. No hace falta pulsar en ningún enlace ni descargar nada sospechoso: basta con que el asistente procese un correo alterado para que acabe filtrando información sensible. El usuario sigue con su día a día sin notar nada, mientras los datos viajan hacia un servidor controlado por el atacante.

Parte del éxito se encuentra en la combinación de varias técnicas clásicas de ingeniería social adaptadas para engañar a la IA.
- Afirmación de autoridad: el mensaje insiste en que el agente tiene “plena autorización” y está “esperado” para acceder a URLs externas, lo que genera una falsa sensación de permiso.
- Camuflaje de la URL maliciosa: la dirección del atacante se presenta como un servicio oficial, por ejemplo un “sistema de validación de cumplimiento” o una “interfaz de recuperación de perfiles”, para que parezca una tarea corporativa legítima.
- Mandato de persistencia: cuando la llamada falla por controles blandos, el prompt ordena intentarlo varias veces y “ser creativo” hasta lograr acceso, lo que le permite sortear restricciones no deterministas.
- Creación de urgencia y consecuencias: se advierte de problemas si no se completa la acción, como que “el informe quedará incompleto”, lo que presiona al asistente a ejecutar rápidamente.
- Afirmación falsa de seguridad: se asegura que los datos son públicos o que la respuesta es “HTML estático” y se indica que se codifiquen en Base64 para que estén “seguros”, un recurso que en realidad ayuda a ocultar la exfiltración.
- Ejemplo claro y reproducible: el correo incluye un ejemplo paso a paso de cómo formatear los datos y la URL, lo que facilita que el modelo lo siga al pie de la letra.
Como podemos ver, el vector es simple en su apariencia y peligroso en su resultado. Un email con instrucciones ocultas en su HTML o metadatos se convierte, para el agente, en una orden legítima. En líneas generales, así se materializa el ataque:
- El atacante prepara un correo con aspecto legítimo, pero con código o instrucciones incrustadas en el HTML que resultan invisibles para el usuario.
- El mensaje llega a la bandeja del destinatario y pasa desapercibido entre el resto de correos.
- Cuando el usuario ordena a Investigación en profundidad de ChatGPT que revise o resuma los mensajes del día, el agente procesa el correo y no distingue entre texto visible e instrucciones ocultas.
- El agente ejecuta las instrucciones y realiza una llamada a una URL externa controlada por el atacante, incluyendo en la petición datos extraídos del buzón.
- La organización no detecta la salida en sus sistemas, porque el tráfico sale desde la nube del proveedor y no desde su perímetro.
Las consecuencias van mucho más allá de un simple correo manipulado. Al tratarse de un agente conectado con permisos para actuar sobre la bandeja de entrada, cualquier documento, factura o estrategia compartida por email puede acabar en manos de un tercero sin que el usuario lo perciba. El riesgo es doble: por un lado, la pérdida de información confidencial; por otro, la dificultad de rastrear la fuga, ya que la petición parte de la infraestructura del propio asistente y no de la red de la empresa.
El hallazgo no se quedó en un simple aviso. Fue comunicado de forma responsable a OpenAI, que reconoció la vulnerabilidad y actuó con rapidez para cerrarla. Desde entonces, el fallo está corregido, pero eso no significa que el riesgo haya desaparecido. Lo que queda en evidencia es un patrón de ataque que podría repetirse en otros entornos de IA con características parecidas, y que obliga a repensar cómo gestionamos la confianza en estos sistemas.
Estamos entrando en un momento en el que los agentes de IA se multiplican y obligan a repensar cómo entendemos la seguridad. Para muchos usuarios resulta impensable un escenario como el que hemos descrito, incluso para quienes tienen un nivel avanzado en informática. No hay un antivirus que nos libre de este tipo de vulnerabilidades: la clave está en comprender qué ocurre y anticiparnos. Lo más llamativo es que los ataques empiezan a parecerse más a un ejercicio de persuasión en lenguaje natural que a una línea de código.
Imágenes | Xataka con Gemini 2.5 Pro
En Xataka | China tiene el mayor sistema de censura del mundo. Ahora ha decidido exportarlo y vendérselo a otros países
utm_campaign=19_Sep_2025"> Javier Marquez .