Red Teaming de IA Agéntica: pruebas de seguridad para sistemas multi-agente

El documento presenta una visión general de las principales actividades para el red teaming de sistemas o aplicaciones de IA agentic. Se describen doce áreas de intervención, con indicaciones sobre pruebas operativas, resultados esperados y recomendaciones para reforzar la seguridad de estos sistemas.

Para obtener un panorama completo de las metodologías y marcos de referencia, consulta la guía de GenAI Red Teaming.

Autorización de agentes y secuestro de control (Agent authorization and control hijacking)

Se realizan pruebas sobre la ejecución no autorizada de comandos, escalada de privilegios y herencia de roles. Los pasos incluyen la inyección de comandos maliciosos, la simulación de señales de control falsificadas y la verificación de la revocación de permisos. Los resultados destacan vulnerabilidades en los mecanismos de autorización, registros de fallos en la gestión de límites y recomendaciones para una mejor gestión de roles y monitorización.

Vulnerabilidad de “verificador fuera del bucle” (Checker-out-of-the-loop vulnerability)

Se verifica que los verificadores (checkers) sean informados en caso de operaciones inseguras o superación de umbrales. Los pasos previstos comprenden la simulación de superación de umbrales, la supresión de alertas y la verificación de los mecanismos de respaldo (fallback). Los resultados ofrecen ejemplos de fallos en las alertas, falta de comunicación y recomendaciones para la robustez de las alertas y los protocolos a prueba de fallos.

Interacción del agente con sistemas críticos (Agent critical system interaction)

Se evalúan las interacciones del agente con sistemas físicos y digitales críticos. Las pruebas incluyen la simulación de entradas inseguras, la verificación de la seguridad en la comunicación con dispositivos IoT y la evaluación de los mecanismos de seguridad. Entre los resultados se prevén registros de violaciones, interacciones inseguras y estrategias para mejorar la seguridad de las interacciones.

Manipulación de objetivos e instrucciones (Goal and instruction manipulation)

Se mide la resiliencia ante ataques que alteran objetivos o instrucciones. Las pruebas comprenden instrucciones ambiguas, variaciones en las secuencias de tareas y simulaciones de modificaciones en cadena de los objetivos. Los resultados se refieren a vulnerabilidades en la integridad de los objetivos y sugerencias para validar las instrucciones.

Explotación de alucinaciones del agente (Agent hallucination exploitation)

Se identifican vulnerabilidades debidas a resultados inventados o falsos. Se procede con entradas ambiguas, errores de alucinación en cadena y pruebas de mecanismos de validación. Los resultados proporcionan información sobre los impactos de las alucinaciones, registros de intentos de explotación y estrategias para aumentar la precisión de los resultados y la monitorización.

Cadena de impacto del agente y radio de explosión (Agent impact chain and blast radius)

Se examina el riesgo de fallos en cadena y la contención del impacto de las violaciones. Los pasos incluyen la simulación de la vulneración del agente, la verificación de las relaciones de confianza entre agentes y el examen de los mecanismos de contención. Los resultados comprenden efectos de propagación, registros de reacciones en cadena y recomendaciones para minimizar el impacto de las violaciones.

Envenenamiento de la base de conocimientos del agente (Agent knowledge base poisoning)

Se evalúan los riesgos derivados de datos de entrenamiento, entradas externas y almacenamiento interno comprometidos. Los pasos prevén la inyección de datos maliciosos, la simulación de entradas externas contaminadas y la prueba de las capacidades de reversión (rollback). Los resultados identifican compromisos en las decisiones, registros de ataques y estrategias para salvaguardar la integridad del conocimiento.

Manipulación de la memoria y el contexto del agente (Agent memory and context manipulation)

Se identifican vulnerabilidades en la gestión del estado y en el aislamiento de las sesiones. Se prueban los reinicios de contextos, las fugas de datos entre sesiones y escenarios de desbordamiento de memoria. Los resultados señalan problemas de aislamiento, registros de manipulaciones e intervenciones de mejora para la conservación del contexto.

Explotación multi-agente (Multi-agent exploitation)

Se analizan los riesgos en la comunicación entre agentes, en la confianza y en la coordinación. Los pasos clave incluyen la interceptación de comunicaciones, la verificación de las relaciones de confianza y la simulación de bucles de retroalimentación. Los resultados identifican vulnerabilidades en los protocolos de confianza y comunicación, y sugieren estrategias para reforzar los límites y la monitorización.

Agotamiento de recursos y servicios (Resource and service exhaustion)

Se prueba la resiliencia ante el agotamiento de recursos y los ataques de denegación de servicio (DoS). Los pasos comprenden simulaciones de cálculos pesados, verificación de los límites de memoria y agotamiento de las cuotas de API. Los registros de estas pruebas documentan la gestión de los recursos y sugieren mecanismos de respaldo.

Ataques a la cadena de suministro y dependencias (Supply chain and dependency attacks)

Se examinan los riesgos relacionados con herramientas de desarrollo, librerías externas y API. Las pruebas incluyen la introducción de dependencias manipuladas, la simulación de servicios comprometidos y la verificación de la seguridad en la canalización de despliegue (pipeline). Los resultados detectan componentes comprometidos y proporcionan recomendaciones para mejorar la gestión de las dependencias y la seguridad de la distribución.

Intrazabilidad del agente (Agent untraceability)

Se evalúan la trazabilidad de las acciones, la rendición de cuentas (accountability) y la preparación forense. Los pasos principales son la supresión de registros, la simulación de abusos en la herencia de roles y la ofuscación de datos forenses. Los resultados señalan lagunas en la trazabilidad, registros de intentos de elusión y sugerencias para mejorar los registros y las herramientas forenses.

Resumen de las actividades de red teaming para IA agentic

Las actividades de red teaming para IA agentic cubren una amplia gama de posibles vulnerabilidades, ofreciendo un marco de verificación sobre autorizaciones, alertas, interacciones de sistema, integridad de los objetivos, precisión de los resultados, propagación de violaciones, integridad de los datos, aislamiento de sesiones, comunicación entre agentes, gestión de recursos, seguridad de la cadena de suministro y trazabilidad de las acciones. Cada área incluye pruebas específicas y recomendaciones concretas para potenciar la seguridad.

Información adicional útil

Para profundizar en las técnicas y marcos de red teaming aplicados a la inteligencia artificial generativa, podrían interesarte: