OWASP Top 10 Agentic AI 2026: Vulnerabilidades y Mitigaciones

El OWASP Top 10 for Agentic Applications 2026 identifica las vulnerabilidades de seguridad críticas en los sistemas de IA autónomos. Estos sistemas operan planificando, decidiendo y actuando sobre múltiples tareas a través de una orquestación compleja y autonomía de varios pasos. Las amenazas derivan de la interacción entre agentes, cadenas de suministro extendidas, memoria persistente y la posibilidad de manipular entradas y acciones. La protección requiere controles específicos para la naturaleza autónoma de los agentes y su integración distribuida.

Las 10 vulnerabilidades principales según OWASP

ASI01: Agent Goal Hijack (Secuestro de objetivos del agente)

Los atacantes manipulan los objetivos, tareas o decisiones de un agente mediante inyección indirecta de prompts, salidas engañosas de herramientas, documentos envenenados, artefactos maliciosos o datos externos manipulados. El agente, incapaz de distinguir instrucciones legítimas de contenido tóxico en lenguaje natural, puede desviarse de sus propósitos originales, causando la exfiltración de datos, acciones financieras fraudulentas, anulación de objetivos mediante correos electrónicos y documentos, o la producción de información falsa.

Mitigaciones: tratar cada entrada como no confiable, validar con mecanismos anti-inyección de prompts, aplicar el principio de menor privilegio en las herramientas, requerir confirmación para acciones de alto impacto, auditar los cambios de objetivos, validación en tiempo de ejecución de las intenciones, higienización de las fuentes de datos, registro y monitoreo continuo, y pruebas de red teaming sobre la anulación de objetivos.

ASI02: Tool Misuse & Exploitation (Uso indebido y explotación de herramientas)

Los agentes pueden utilizar herramientas legítimas de manera maliciosa debido a inyecciones de prompts, desalineación o una validación deficiente. Esto incluye la eliminación de datos críticos, llamadas repetidas y costosas, invocación de shells maliciosos, envenenamiento de datos mediante contenido externo y el uso excesivo de privilegios asignados a las herramientas.

Mitigaciones: menor privilegio para herramientas, sandboxing, autenticación en cada acción, cumplimiento de políticas, gestión de credenciales efímeras vinculadas a la sesión, validación semántica, auditoría continua de todas las acciones de las herramientas y registros inmutables.

ASI03: Identity & Privilege Abuse (Abuso de identidad y privilegios)

La herencia y delegación de privilegios pueden llevar a los agentes a utilizar credenciales para realizar acciones no autorizadas. Esto aprovecha las brechas entre los sistemas de identidad y el diseño agentico (contextos de autenticación, almacenamiento en caché, confianza entre agentes). Los riesgos incluyen el abuso de roles mediante cadenas de delegación, retención de claves en memoria y phishing entre agentes.

Mitigaciones: sandbox por sesión, limitar la duración y el alcance de las credenciales, aislar las identidades por agente, centralizar autorizaciones y aprobaciones en pasos privilegiados, vinculación de intenciones a autorizaciones, detección de escalada anómala o phishing de código de dispositivo en agentes.

ASI04: Agentic Supply Chain Vulnerabilities (Vulnerabilidades en la cadena de suministro agentica)

El agente puede estar expuesto a componentes, herramientas, modelos o registros externos cargados dinámicamente que son potencialmente maliciosos o manipulados. Riesgos como plantillas de prompts envenenadas, inyección en metadatos de herramientas, suplantación de agentes o typo-squatting aumentan la superficie de ataque.

Mitigaciones: firmar y certificar cada componente mediante SBOM/AIBOM, aislar agentes en sandboxes, autenticación mutua entre pares, validación continua, fijación (pinning) de contenidos y mecanismos de “kill switch” para la revocación de emergencia.

ASI05: Unexpected Code Execution (RCE) (Ejecución inesperada de código)

Los agentes que generan o ejecutan código están expuestos a exploits debido a inyecciones de prompts, deserialización insegura, uso de funciones eval no seguras, instalación de paquetes maliciosos y comandos de shell no validados. Los escenarios incluyen la ejecución de código no previsto y el compromiso persistente de la máquina anfitriona.

Mitigaciones: prohibir eval en producción, sandbox para código, privilegios mínimos, análisis estático de la salida generada, aprobación humana en acciones críticas, análisis dinámico y listas de bloqueo de paquetes sospechosos.

ASI06: Memory & Context Poisoning (Envenenamiento de memoria y contexto)

La memoria agentica persistente (bases de datos vectoriales, sesiones, almacenes RAG, resúmenes, contexto compartido) puede ser contaminada con datos falsos o manipulados. Esto altera las decisiones futuras, el razonamiento o la selección de herramientas, lo que conduce a errores sistémicos y fugas de datos entre usuarios o sesiones.

Mitigaciones: cifrado y segmentación de la memoria, validación y procedencia de la información, aislamiento de contextos, minimizar la retención, reversión ante anomalías, decaimiento de memorias no verificadas y bloqueo de la reinserción automática de salidas autogeneradas.

ASI07: Insecure Inter-Agent Communication (Comunicación insegura entre agentes)

Las comunicaciones no autenticadas o no integradas entre agentes exponen a riesgos de repetición (replay), man-in-the-middle, suplantación, manipulación, falsificación de esquemas e inferencias sobre metadatos. Al carecer de autenticación fuerte y canales cifrados, los agentes pueden asumir roles y propósitos maliciosos, propagando ataques en la red.

Mitigaciones: cifrado de extremo a extremo con credenciales por agente, firmas digitales en mensajes, anti-replay, descubrimiento y enrutamiento autenticado, políticas de versiones y desactivación de protocolos débiles, verificación de descriptores y capacidades de los agentes.

ASI08: Cascading Failures (Fallos en cascada)

Un solo error (alucinación, envenenamiento de memoria, compromiso de herramienta) se amplifica propagándose entre agentes, herramientas y flujos de trabajo, causando impactos sistémicos en la confidencialidad, integridad y disponibilidad. Existe riesgo de reintentos oscilantes, bucles de retroalimentación y escalada de daños sin control humano.

Mitigaciones: diseño de confianza cero (zero-trust) y resiliencia, cumplimiento de políticas externas, puntos de control y revisiones humanas donde sea necesario, segmentación, credenciales just-in-time, limitación de tasa (rate limiting), simulaciones ex-post para auditoría y control de políticas, y registros a prueba de manipulaciones.

ASI09: Human-Agent Trust Exploitation (Explotación de la confianza humano-agente)

La propensión natural humana a confiar en agentes autónomos es explotada mediante explicaciones engañosas, manipulaciones emocionales o autoridad percibida. De esta forma, el usuario aprueba acciones peligrosas, eludiendo los controles de seguridad.

Mitigaciones: confirmaciones de varios pasos, registros inmutables, detección conductual, notificación de anomalías, calibración adaptativa de la confianza, cumplimiento de la procedencia de datos, separación de vista previa/acción, señales visuales y formación contra la manipulación.

ASI10: Rogue Agents (Agentes rebeldes)

Los agentes comprometidos se desvían y actúan de forma autónoma, maliciosa o colusoria, aprovechando brechas de control para exfiltrar datos, orquestar flujos de trabajo ilícitos, autorreplicarse o sabotear sistemas. El comportamiento emergente se vuelve dañino y difícil de contener.

Mitigaciones: auditorías inmutables y firmadas, zonas de confianza y sandboxes, monitoreo conductual, contención y revocación rápida, manifiestos conductuales firmados y verificados, y reintegración solo después de la verificación y aprobación humana.

Mitigaciones transversales y mejores prácticas

  • Aplicar siempre el menor privilegio y la menor agencia: reducir la autonomía y los privilegios innecesarios para agentes y herramientas.
  • Higienizar y validar cualquier entrada (prompts, herramientas, datos, documentos, canales de comunicación).
  • Utilizar sandboxes y políticas de cumplimiento en cada nivel de acción y comunicación entre agentes.
  • Establecer registros exhaustivos, trazabilidad, alertas sobre anomalías y pruebas periódicas (red teaming y réplicas de gemelos digitales).
  • Integrar “kill switches” para revocación inmediata, despliegues graduales (staged rollout), resiliencia de dependencias y gobernanza de la cadena de suministro.
  • Prever la intervención humana (human-in-the-loop) para acciones críticas y fuera de política, formación continua y retroalimentación sobre abusos de confianza.

Referencias y profundización

La seguridad de los sistemas agenticos requiere mitigaciones dirigidas a limitar la autonomía, aislar contextos, validar cada canal y acción, monitorear señales de desviación y reaccionar rápidamente mediante herramientas de auditoría y control.