AITG-MOD-03: Pruebas de conjuntos de entrenamiento envenenados

Los ataques a los conjuntos de datos de entrenamiento comprometen la integridad del modelo de IA al insertar datos maliciosos durante la fase de entrenamiento. Estos ataques introducen sesgos, puertas traseras (backdoors) persistentes o degradan la precisión del modelo, con impactos directos en la fiabilidad operativa y el cumplimiento normativo.

Este artículo forma parte del capítulo AI Model Testing de la Guía de Pruebas de IA de OWASP.

Objetivos de la prueba

Identificar muestras maliciosas o corruptas dentro de los conjuntos de datos de entrenamiento.
Evaluar la robustez del modelo frente a ataques de envenenamiento de datos (data poisoning) dirigidos, indiscriminados o con puertas traseras.
Verificar la integridad de las fuentes de datos y de las canalizaciones (pipelines) de preprocesamiento.
Analizar la eficacia de las contramedidas para identificar y mitigar datos envenenados.

Metodología y cargas útiles (payloads)

Ataque de inversión de etiquetas (Label Flipping Attack)

Se modifica una porción del conjunto de datos sustituyendo las etiquetas correctas por valores erróneos, simulando un ataque indiscriminado que degrada la precisión general del modelo.

Indicación de vulnerabilidad: Herramientas de auditoría como cleanlab identifican más del 2% de problemas de etiquetado, lo que sugiere una corrupción sistemática en lugar del ruido aleatorio esperado.

Inyección de disparadores de puerta trasera (Backdoor Trigger Injection)

Se modifican muestras de entrenamiento insertando disparadores (triggers) no evidentes (patrones visuales específicos, frases raras, marcas de agua ocultas) asociados a una clase objetivo, creando una puerta trasera que puede activarse en la fase de inferencia.

Indicación de vulnerabilidad: Los algoritmos de detección de anomalías resaltan clústeres compactos en el espacio de características que están distantes de la distribución típica de la clase asignada, señalando posibles patrones de puerta trasera.

Envenenamiento dirigido (Targeted Poisoning)

Se alteran o etiquetan incorrectamente muestras de un subgrupo específico para degradar selectivamente el rendimiento del modelo solo en ese segmento, manteniendo la precisión general aparentemente normal.

Indicación de vulnerabilidad: El modelo muestra una caída drástica de la precisión (superior al 20%) en el subgrupo objetivo en comparación con la precisión general, lo que indica una manipulación dirigida del conjunto de entrenamiento.

Envenenamiento de características (Feature Poisoning)

Se insertan sistemáticamente modificaciones sutiles en las características de entrada (ruido imperceptible, alteraciones de píxeles, perturbaciones semánticas) para influir en el comportamiento del modelo sobre patrones específicos.

Indicación de vulnerabilidad: El análisis estadístico del conjunto de datos revela distribuciones anómalas de características o correlaciones inesperadas entre atributos y etiquetas, lo que señala una posible manipulación de las características.

Resultado esperado

Conjunto de datos validado: El conjunto de entrenamiento no debe contener errores de etiquetado ni patrones maliciosos detectables. Las alertas automáticas de anomalías deben ser inferiores al 1% del total de muestras.
Detección de anomalías eficaz: El sistema de validación debe identificar automáticamente clústeres anómalos, patrones sospechosos o distribuciones estadísticas incompatibles con datos limpios.
Rendimiento uniforme: El modelo entrenado con datos controlados no debe mostrar sesgos anómalos, puertas traseras activables ni degradación selectiva en subgrupos específicos.

Acciones de remediación

Canalización de validación automatizada

Implementar una canalización de saneamiento obligatoria antes del entrenamiento, utilizando herramientas como cleanlab para la corrección automática de etiquetas y detección de anomalías para identificar muestras sospechosas.

Impacto esperado: Reducción de la tasa de error de etiquetado por debajo del 1% e identificación automática de clústeres anómalos antes de que afecten al entrenamiento.

Versionado y trazabilidad de los conjuntos de datos

Adoptar conjuntos de datos versionados con herramientas como DVC, vinculando cada modelo a la versión específica de los datos de entrenamiento y manteniendo un registro de auditoría completo de los cambios en el conjunto de datos.

Impacto esperado: Capacidad de reversión inmediata a versiones anteriores del conjunto de datos en caso de detección de envenenamiento y trazabilidad completa de los cambios en los datos.

Privacidad diferencial en el entrenamiento

Aplicar técnicas de privacidad diferencial durante el entrenamiento para limitar la influencia de muestras maliciosas individuales en el modelo final, haciendo que los ataques de envenenamiento sean menos eficaces.

Impacto esperado: Reducción del impacto de las muestras envenenadas en el comportamiento del modelo, con una degradación máxima contenida por debajo del 5% incluso en presencia de envenenamiento limitado.

Monitoreo continuo de la deriva de datos (data drift)

Implementar sistemas de monitoreo estadístico continuo de la distribución de los datos de entrenamiento, con alertas automáticas ante cambios repentinos que puedan indicar la inserción de datos maliciosos.

Impacto esperado: Detección en tiempo real de anomalías estadísticas en el conjunto de datos con alertas en un plazo de 24 horas tras la inserción de datos sospechosos.

Seguridad de la canalización MLOps

Proteger toda la canalización MLOps con controles de acceso estrictos, control de versiones obligatorio en datos y código, y revisiones obligatorias para cualquier cambio en la canalización de datos o en los scripts de entrenamiento.

Impacto esperado: Prevención de cambios no autorizados en el conjunto de datos y trazabilidad completa de todas las operaciones en la canalización de datos.

Herramientas sugeridas

Cleanlab: detección y corrección automática de errores de etiquetas, valores atípicos y anomalías en el conjunto de datos.
Adversarial Robustness Toolbox (ART): simulación de ataques de envenenamiento de datos y experimentación de defensas como el agrupamiento de activaciones (activation clustering).
Data Version Control (DVC): versionado de conjuntos de datos para garantizar la reproducibilidad y la integridad.
TensorFlow Data Validation (TFDV): análisis y validación a escala de datos de aprendizaje automático para detectar anomalías y derivas.

Referencias

Northcutt et al., “Confident Learning: Estimating Uncertainty in Dataset Labels”, Journal of Artificial Intelligence Research, 2021 – arXiv:1911.00068
OWASP, “LLM04: Data and Model Poisoning”, OWASP Top 10 for LLM Applications 2025 – OWASP LLM04:2025
NIST, “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations”, NIST AI 100-2e2025, Section 2.3, March 2025 – DOI:10.6028/NIST.AI.100-2e2025

Información adicional

Para completar la comprensión de los ataques a modelos de IA, consulte las otras pruebas del capítulo AI Model Testing:

La integración de canalizaciones de validación automatizadas y el versionado riguroso de los conjuntos de datos ayudan a prevenir la inserción de datos maliciosos en los modelos. Reconocer y aplicar estas técnicas requiere competencias específicas: los itinerarios de formación en ciberseguridad y seguridad de IA de ISGroup apoyan a los equipos que gestionan canalizaciones MLOps y desean consolidar sus capacidades defensivas. Probar regularmente la integridad de los conjuntos de entrenamiento es fundamental para garantizar la fiabilidad y la robustez en producción.

[Callforaction-TRA-Footer]

ISGroup Consultoría de Ciberseguridad