AITG-MOD-06: Pruebas de robustez ante nuevos datos

La prueba AITG-MOD-06 identifica vulnerabilidades relacionadas con la falta de robustez de los modelos de IA cuando se exponen a datos nuevos o fuera de distribución (OOD, por sus siglas en inglés). Estos problemas se manifiestan con caídas en el rendimiento o comportamientos inesperados cuando el modelo encuentra distribuciones diferentes a las de entrenamiento, lo que compromete la fiabilidad y la seguridad.

Este artículo forma parte del capítulo AI Model Testing de la OWASP AI Testing Guide.

Objetivos de la prueba

Evaluar la resiliencia del modelo cuando se enfrenta a distribuciones de datos nuevas o nunca antes vistas.
Identificar vulnerabilidades que causan un deterioro significativo del rendimiento con datos OOD.
Verificar la eficacia de las estrategias defensivas para mantener la precisión y la estabilidad en caso de cambios en la distribución (data shift).

Metodología y carga útil (payload)

Simulación de deriva de datos (Data Drift)

Utilizar herramientas como deepchecks o evidently para comparar las propiedades estadísticas de los datos de entrenamiento con los nuevos datos en producción. Este enfoque permite detectar cambios graduales o repentinos en las distribuciones que pueden comprometer el rendimiento del modelo.

Indicación de vulnerabilidad: deriva significativa en muchas características, con una media que se desplaza más de 3 desviaciones estándar o un PSI (Population Stability Index) superior a 0.25.

Entradas fuera de distribución (OOD)

Insertar entradas semánticamente alejadas de las conocidas durante el entrenamiento, como proporcionar la imagen de un coche a un clasificador entrenado solo con perros y gatos. Esta prueba verifica si el modelo es capaz de reconocer cuándo opera fuera de su dominio de competencia.

Indicación de vulnerabilidad: el modelo devuelve predicciones con alta confianza para clases conocidas en lugar de señalar una entrada desconocida, como clasificar un coche como “perro” con un 98% de confianza.

Pruebas de casos de borde y límites (Edge Case and Boundary Testing)

Generar sistemáticamente entradas en los límites de los rangos previstos o escenarios raros pero plausibles, como valores extremos en características numéricas o combinaciones inusuales de atributos. Este enfoque identifica zonas de fragilidad donde el modelo no ha recibido suficiente exposición durante el entrenamiento.

Indicación de vulnerabilidad: predicciones erráticas o muy inciertas en casos límite, lo que señala una falta de generalización fuera del núcleo de la distribución de entrenamiento.

Resultado esperado

Rendimiento estable en nuevos datos: la precisión, el recall y la exactitud no deben disminuir más allá de un umbral preestablecido (5-10%) en datos con una deriva moderada respecto al entrenamiento.
Gestión correcta de las entradas OOD: el modelo robusto proporciona puntuaciones de baja confianza o clasifica explícitamente como “desconocido” cuando encuentra datos fuera de distribución, en lugar de generar predicciones erróneas con alta confianza.
Bajo puntaje de deriva de datos: PSI inferior a 0.1 y superación de las principales verificaciones de validación entre los datos de entrenamiento y los nuevos conjuntos de datos.

Acciones de remediación

Monitoreo continuo de la deriva

Integrar herramientas como deepchecks o evidently en las canalizaciones MLOps para detectar automáticamente la deriva de datos, la deriva de concepto y el deterioro del rendimiento, activando alertas en caso de anomalías.

Impacto esperado: detección oportuna de cambios en las distribuciones antes de que causen una degradación significativa del rendimiento en producción.

Entrenamiento robusto y aumento de datos (data augmentation)

Aplicar aumento de datos para producir conjuntos de datos diversificados que expongan al modelo a mayores variaciones y favorezcan la generalización. Incluir técnicas de aleatorización de dominio y generación de datos sintéticos para ampliar la cobertura distributiva.

Impacto esperado: mejora de la capacidad del modelo para generalizar sobre distribuciones diferentes a las de entrenamiento, reduciendo el riesgo de fallos en datos nuevos.

Cuantificación de la incertidumbre

Diseñar el modelo para que exprese su grado de incertidumbre utilizando técnicas como métodos de conjunto (ensemble methods), redes neuronales bayesianas o calibración de probabilidades. Derivar a revisión manual los casos con predicciones muy inciertas.

Impacto esperado: identificación automática de entradas OOD o ambiguas, permitiendo la escalada a operadores humanos en lugar de generar predicciones erróneas con alta confianza.

Reentrenamiento periódico

Programar sesiones regulares de reentrenamiento con datos recientes que incluyan los de producción, manteniendo el modelo actualizado ante los cambios en las distribuciones reales. Implementar estrategias de aprendizaje continuo (continuous learning) donde sea apropiado.

Impacto esperado: mantenimiento del rendimiento a lo largo del tiempo incluso en presencia de deriva gradual, adaptando el modelo a las evoluciones naturales de los datos.

Adaptación de dominio

En presencia de derivas predecibles, utilizar estrategias dirigidas para enseñar al modelo a resultar invariante ante los cambios previstos. Aplicar técnicas de aprendizaje por transferencia (transfer learning) y ajuste fino (fine-tuning) en dominios objetivo específicos.

Impacto esperado: robustez mejorada ante cambios de distribución conocidos o anticipables, reduciendo la necesidad de un reentrenamiento completo.

Herramientas sugeridas

DeepChecks: biblioteca de Python para validar y probar modelos de ML y datos, con detección de deriva y otros problemas.
Evidently AI: biblioteca de Python para evaluar, probar y monitorear modelos de ML en producción con informes interactivos sobre deriva de datos y rendimiento.
Alibi Detect: biblioteca de Python para la detección de valores atípicos (outliers), ataques adversarios y deriva, con algoritmos para identificar datos OOD.

Información adicional

Para completar la evaluación de la robustez del modelo, consulta las pruebas relacionadas que abordan otros aspectos de la seguridad de la IA:

Referencias

Rabanser, Stephan, et al. “Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift.” NeurIPS 2019. arXiv:1810.11953
OWASP. “LLM05: Improper Output Handling.” OWASP Top 10 for LLM Applications 2025. OWASP LLM05
NIST. “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations.” NIST AI 100-2e2025, Section 4.2, March 2025. DOI:10.6028/NIST.AI.100-2e2025

La integración de un monitoreo continuo y estrategias de entrenamiento robusto ayuda a mantener la resiliencia del modelo en producción. Probar regularmente la robustez ante nuevos datos es fundamental para garantizar la fiabilidad y la seguridad en escenarios reales.