Un nuevo informe de Tenable ha revelado un conjunto de siete vulnerabilidades críticas en los modelos GPT-4o y GPT-5 de OpenAI, capaces de permitir a los atacantes robar información privada de los usuarios, incluidos datos de memoria y conversaciones anteriores, sin que estos lo sepan.
Los investigadores Moshe Bernstein y Liv Matan advirtieron que estas fallas exponen a ChatGPT a ataques de inyección indirecta de prompts, un tipo de ciberataque que manipula el comportamiento del modelo para ejecutar acciones maliciosas o no deseadas.
Según el informe, los atacantes pueden inyectar instrucciones ocultas en sitios web aparentemente confiables o incluso a través de enlaces maliciosos, de manera que, al pedirle a ChatGPT que resuma o analice el contenido de esas páginas, el sistema ejecuta comandos sin advertirlo.
Entre las vulnerabilidades más destacadas se incluyen:
- Inyección de prompts indirecta en el contexto de navegación, mediante comentarios maliciosos en sitios web.
- Ataques “zero-click”, donde el simple hecho de preguntar sobre una web infectada provoca la ejecución del código.
- Vulnerabilidad de un solo clic, que se activa con enlaces del tipo chatgpt.com/?q={prompt}.
- Evasión de mecanismos de seguridad, utilizando dominios permitidos como bing.com para camuflar URL maliciosas.
- Técnicas de “memory injection”, capaces de envenenar la memoria del usuario con instrucciones ocultas que persisten en futuras conversaciones.
Estas fallas, aunque algunas ya fueron corregidas, demuestran que los sistemas de IA siguen siendo vulnerables a manipulaciones externas cuando se conectan con herramientas, buscadores o fuentes en línea.
La expansión del ataque: desde ChatGPT hasta Claude y Copilot
Tenable advierte que este problema no es exclusivo de OpenAI. En los últimos meses se han documentado ataques similares contra otras plataformas de IA, incluyendo:
- Claude, de Anthropic, afectado por técnicas como PromptJacking y Claude Pirate.
- GitHub Copilot Chat, con la vulnerabilidad CamoLeak (CVSS 9.6), que permite extraer código y secretos de repositorios privados.
- Microsoft 365 Copilot, vulnerable a la extracción de datos mediante diagramas Mermaid y CSS malicioso.
Los expertos coinciden en que la naturaleza abierta y conectada de los grandes modelos de lenguaje (LLM) aumenta la superficie de ataque, ya que los modelos no siempre pueden distinguir entre instrucciones legítimas y contenido manipulado por un atacante.
Los investigadores de Tenable fueron claros:
“La inyección de prompts es un problema inherente a la forma en que funcionan los LLM, y probablemente no se resolverá de manera definitiva a corto plazo”.
El informe también cita estudios recientes que muestran cómo los modelos pueden sufrir de “pudrición cerebral” (LLM brain rot) si son entrenados con datos basura o manipulados con documentos maliciosos. Investigadores de Texas A&M, Purdue y Stanford advirtieron que incluso un pequeño número de archivos contaminados puede corromper el comportamiento de una IA completa.
Además, un estudio del Alan Turing Institute reveló que solo 250 documentos envenenados bastan para insertar puertas traseras (backdoors) en modelos de millones de parámetros.
La conclusión: la IA es poderosa, pero sigue siendo vulnerable
La exposición de estas vulnerabilidades marca un nuevo capítulo en la relación entre inteligencia artificial y ciberseguridad.
Aunque OpenAI ha corregido parte de los problemas detectados, los expertos alertan que los ataques de inyección de prompts seguirán evolucionando, y que cada nueva conexión entre IA y herramientas externas abre una puerta más al riesgo.