AITG-DAT-02: Pruebas de Exfiltración en Tiempo de Ejecución

La exfiltración en tiempo de ejecución (runtime exfiltration) representa uno de los riesgos más críticos para los sistemas de inteligencia artificial en producción: la extracción no autorizada de datos sensibles durante la ejecución del modelo. Los atacantes aprovechan los puntos finales de inferencia, registros (logs), cachés o respuestas de API para sustraer información confidencial que el sistema nunca debería exponer.

Este artículo forma parte del capítulo AI Data Testing de la Guía de Pruebas de IA de OWASP.

Objetivos de la prueba

Una prueba eficaz de exfiltración en tiempo de ejecución debe:

Identificar vulnerabilidades que permitan la extracción de datos durante la ejecución del modelo.
Verificar que las salidas de inferencia, los registros y las cachés no expongan información sensible.
Validar los controles de seguridad y privacidad implementados para la gestión de datos en producción.
Asegurar el aislamiento de los datos entre diferentes usuarios o inquilinos (tenants).

Metodología y cargas útiles (payloads)

Ataque de inferencia de datos sensibles (Sensitive Data Inference Attack)

Esta técnica implica el envío de solicitudes de inferencia diseñadas para extraer o activar la exposición de datos sensibles. La prueba verifica si el modelo puede ser manipulado para revelar datos de entrenamiento que contengan información confidencial, información de otros usuarios o sesiones, datos propietarios o secretos comerciales, e información de identificación personal (PII).

Indicación de vulnerabilidad: las respuestas del sistema contienen datos sensibles que deberían estar protegidos o enmascarados.

Verificación de registros y cachés no protegidos

Los sistemas de IA generan registros detallados y utilizan cachés para optimizar el rendimiento. La prueba verifica si los registros del sistema guardan datos sensibles en texto plano, si las cachés conservan información confidencial sin la protección adecuada, si los mecanismos de acceso a los registros y cachés son lo suficientemente restrictivos, y si existen procedimientos de retención y borrado seguro de datos temporales.

Indicación de vulnerabilidad: la presencia de datos sensibles no enmascarados en los registros o cachés representa una vulnerabilidad crítica.

Explotación de respuestas de API en tiempo de ejecución

Los puntos finales (endpoints) de API de los sistemas de IA pueden ser manipulados para extraer información no autorizada. La prueba analiza respuestas de API que revelan detalles internos del sistema, mensajes de error que exponen seguimientos de pila (stack traces) o variables internas, parámetros de respuesta que contienen datos de otros usuarios, y metadatos que revelan información sobre la estructura o configuración del sistema.

Indicación de vulnerabilidad: una respuesta de API que expone inadvertidamente datos sensibles viola los requisitos de seguridad y privacidad.

Salida esperada

Protección de las salidas de inferencia

El sistema debe garantizar que las respuestas del modelo no contengan datos sensibles provenientes de otros contextos o usuarios, información de identificación personal no autorizada, datos propietarios o secretos comerciales, y detalles técnicos que podrían facilitar ataques adicionales.

Enmascaramiento en registros y cachés

Todos los datos sensibles deben ser enmascarados o anonimizados antes de ser registrados, protegidos con cifrado cuando se almacenen en caché, omitidos de los mensajes de error y de las trazas de depuración, y sujetos a políticas de retención y eliminación segura.

Seguridad de las API en tiempo de ejecución

Las API deben implementar controles rigurosos: mensajes de error genéricos que no revelen detalles internos, validación y saneamiento de todas las entradas y salidas, aislamiento de datos entre diferentes usuarios o inquilinos, y registro seguro de las operaciones sin exponer datos sensibles.

Acciones de remediación

Validación y saneamiento de las salidas

Implementar controles automáticos que escaneen las salidas en busca de patrones de datos sensibles antes de devolverlas, enmascaren o eliminen automáticamente información confidencial, apliquen reglas de prevención de pérdida de datos (DLP) en tiempo real y registren intentos de extracción para análisis de seguridad.

Impacto esperado: reducción significativa del riesgo de exposición accidental de datos sensibles a través de las respuestas del modelo.

Registro seguro y gestión de cachés

Configurar los sistemas para filtrar o enmascarar datos sensibles antes de registrarlos, evitar el registro de entradas de usuario sin procesar o respuestas de API completas en producción, registrar solo los metadatos necesarios para la resolución de problemas y auditorías, cifrar las cachés e implementar políticas de caducidad automática, y limitar el acceso a los registros y cachés solo al personal autorizado.

Impacto esperado: protección de los datos sensibles durante todo el ciclo de vida operativo del sistema de IA.

Gestión de errores y controles multi-inquilino (multi-tenancy)

Adoptar mejores prácticas para mostrar solo mensajes de error genéricos a los usuarios finales, evitar la exposición de seguimientos de pila, variables internas o datos brutos, aislar lógica y criptográficamente los datos de cada inquilino, implementar controles de acceso granulares a nivel de datos y verificar regularmente la eficacia del aislamiento entre inquilinos.

Impacto esperado: eliminación de los vectores de ataque basados en mensajes de error y fortalecimiento del aislamiento multi-inquilino.

Herramientas sugeridas

OWASP AI Security and Privacy Guide: marco de referencia para la seguridad de los sistemas de IA.
Rebuff: herramienta para detectar y bloquear intentos de inyección de prompts y exfiltración de datos.
PyRIT (Python Risk Identification Toolkit): kit de herramientas de Microsoft para identificar riesgos de seguridad en sistemas de IA generativa.
Garak: escáner de vulnerabilidades para modelos de lenguaje.

Información adicional

Para comprender mejor el contexto de la exfiltración en tiempo de ejecución dentro de la seguridad de los datos de IA, consulte estos artículos relacionados:

AI Data Testing: Seguridad y Validación de Datos: visión general completa del capítulo de pruebas de datos de IA de OWASP.
AITG-DAT-01: Testing for Training Data Exposure: pruebas para la protección de los datos de entrenamiento.
AITG-INF-02: Testing for Resource Exhaustion: protección contra ataques de agotamiento de recursos.

Cómo apoya ISGroup

ISGroup ofrece servicios especializados para evaluar y mejorar la seguridad de los sistemas de IA en producción. A través del servicio de Secure Architecture Review, nuestros expertos analizan la arquitectura de los sistemas de IA para identificar vulnerabilidades de exfiltración en tiempo de ejecución y proponer soluciones concretas de mitigación.

El equipo de ISGroup apoya a las organizaciones en la implementación de controles de seguridad eficaces, desde la validación de las salidas hasta la configuración segura de registros y cachés, pasando por la verificación del aislamiento multi-inquilino.

Preguntas frecuentes (FAQ)

¿Qué es la exfiltración en tiempo de ejecución en los sistemas de IA?
La exfiltración en tiempo de ejecución es la extracción no autorizada de datos sensibles durante la ejecución de un modelo de IA en producción. Los atacantes explotan puntos finales de inferencia, registros, cachés o respuestas de API para sustraer información confidencial que el sistema no debería exponer.
¿Cuáles son los principales vectores de ataque para la exfiltración en tiempo de ejecución?
Los principales vectores incluyen respuestas del modelo manipuladas para revelar datos de otros usuarios, registros del sistema que guardan información sensible en texto plano, cachés no protegidas, mensajes de error que exponen detalles internos y respuestas de API que contienen datos no autorizados.
¿Cómo se prueba la vulnerabilidad a la exfiltración en tiempo de ejecución?
La prueba implica tres metodologías principales: ataque de inferencia de datos sensibles (solicitudes diseñadas para extraer datos), verificación de registros y cachés no protegidos, y explotación de respuestas de API en tiempo de ejecución (análisis de respuestas para identificar exposiciones no autorizadas).
¿Qué controles implementar para prevenir la exfiltración en tiempo de ejecución?
Los controles esenciales incluyen validación y saneamiento automático de las salidas, enmascaramiento de datos sensibles en los registros, cifrado de cachés, mensajes de error genéricos, aislamiento multi-inquilino y políticas de prevención de pérdida de datos (DLP) en tiempo real.
¿Cuál es la diferencia entre exfiltración en tiempo de ejecución y exposición de datos de entrenamiento?
La exfiltración en tiempo de ejecución se refiere a la extracción de datos durante la ejecución del modelo en producción, mientras que la exposición de datos de entrenamiento se refiere a la revelación de información contenida en los datos utilizados para entrenar el modelo. Ambas son vulnerabilidades críticas pero requieren técnicas de prueba y mitigación diferentes.

Referencias

OWASP Foundation, OWASP AI Exchange – Sensitive Information Disclosure, 2024, genai.owasp.org
OWASP Foundation, OWASP Top 10 for LLM Applications 2025 – Sensitive Data Leakage and Exfiltration, 2025, genai.owasp.org
NIST, Artificial Intelligence Risk Management Framework (AI RMF 1.0), 2023, DOI: 10.6028/NIST.AI.100-1

La integración de controles de validación de salidas, registro seguro y aislamiento multi-inquilino ayuda a proteger los datos sensibles durante la inferencia. Probar regularmente los sistemas de IA en producción es fundamental para garantizar la seguridad y la privacidad de los datos en entornos operativos reales.