AITG-DAT-03: Pruebas de Diversidad y Cobertura de Conjuntos de Datos

Los modelos de inteligencia artificial aprenden de los datos con los que son entrenados. Si estos datos no representan adecuadamente la variedad de escenarios, poblaciones y contextos del mundo real, el modelo corre el riesgo de producir resultados sesgados, discriminatorios o simplemente inadecuados cuando se utiliza en producción.

Este artículo forma parte del capítulo AI Data Testing de la OWASP AI Testing Guide.

Las pruebas de diversidad y cobertura de conjuntos de datos (dataset diversity & coverage) verifican que los datos utilizados para entrenar y validar un modelo de IA sean lo suficientemente representativos y diversos. Esta verificación es fundamental para garantizar la equidad, la fiabilidad y la capacidad de generalización del sistema.

Por qué la diversidad de los conjuntos de datos es un requisito de seguridad

Un conjunto de datos poco representativo no es solo un problema técnico: es una vulnerabilidad que puede generar impactos concretos en personas, procesos y cumplimiento normativo.

Cuando los datos de entrenamiento carecen de diversidad, el modelo tiende a replicar y amplificar los sesgos presentes en los propios datos. Esto se traduce en:

Discriminación hacia grupos demográficos subrepresentados
Errores sistemáticos en contextos no previstos durante el entrenamiento
Rendimiento deficiente en escenarios operativos reales
Pérdida de confianza por parte de los usuarios y riesgos reputacionales
Incumplimiento de normativas sobre protección de datos y equidad algorítmica

Verificar la diversidad y la cobertura de los conjuntos de datos permite identificar estas lagunas antes de que el modelo se ponga en producción, reduciendo riesgos operativos, legales y reputacionales.

Objetivos de la prueba

Las pruebas de diversidad y cobertura de conjuntos de datos se centran en tres áreas principales:

Representatividad demográfica: los conjuntos de datos deben reflejar de manera equilibrada los grupos demográficos, los contextos operativos y las condiciones que se encuentran en el mundo real
Cobertura de escenarios: los datos deben incluir la variedad de situaciones que el modelo encontrará en producción
Cumplimiento normativo y ético: los conjuntos de datos deben respetar los estándares de IA Responsable y las restricciones normativas aplicables al sector de referencia

Metodología y carga útil (payload)

Análisis de la representación demográfica

Se realiza un análisis estadístico para comparar la distribución demográfica presente en el conjunto de datos con la de la población de referencia o los usuarios esperados.

Este análisis requiere:

Definición clara de los atributos sensibles relevantes para el contexto de la aplicación (edad, género, origen geográfico, condiciones socioeconómicas)
Medición de la distribución de estos atributos en los datos de entrenamiento
Comparación con la distribución esperada en la población objetivo

Indicador de vulnerabilidad: algunas categorías demográficas resultan representadas de manera significativamente diferente en comparación con los usuarios reales del sistema.

Verificación de la cobertura de escenarios operativos

Se evalúa la integridad y la variedad de los escenarios representados en el conjunto de datos con respecto al uso esperado del modelo.

Ejemplos de escenarios a verificar:

Condiciones de iluminación variables para sistemas de visión artificial
Diversidad lingüística y dialectal para sistemas de procesamiento de lenguaje natural
Variabilidad de las condiciones ambientales para sistemas IoT
Diversidad de dispositivos y configuraciones para aplicaciones móviles

Indicador de vulnerabilidad: faltan escenarios reales críticos o están subrepresentados; el modelo podría no gestionar correctamente situaciones comunes en el entorno de producción.

Detección de sesgos y medición de la equidad

Se utilizan métricas de equidad (fairness) como la paridad demográfica (demographic parity), la igualdad de oportunidades (equal opportunity) y las cuotas igualadas (equalized odds) para medir posibles desequilibrios en los resultados del modelo entre diferentes grupos.

El análisis de equidad se lleva a cabo tanto en los datos de entrenamiento como en los resultados del modelo, verificando que el rendimiento sea comparable entre los distintos grupos de referencia.

Indicador de vulnerabilidad: se identifican sesgos sustanciales o una representación desproporcionada de grupos específicos.

Resultado esperado

Un conjunto de datos adecuadamente diversificado y representativo debe cumplir con estos criterios mínimos:

La distribución de los atributos demográficos refleja la de la población objetivo. Ningún grupo relevante debe estar representado con menos del 5% del total de las muestras
La diferencia de paridad demográfica (Demographic Parity Difference) se mantiene por debajo del 15% para todos los atributos sensibles identificados
El conjunto de datos incluye documentación transparente (datasheet) que describe las fuentes de los datos, la composición, el proceso de recopilación y las limitaciones conocidas
La cobertura de los escenarios operativos es completa respecto a los casos de uso previstos en producción

Acciones de remediación

Cuando el análisis destaca lagunas en la diversidad o en la cobertura, es necesario intervenir con acciones específicas.

Enriquecimiento de datos

Adquirir nuevos datos provenientes de grupos subrepresentados, regiones geográficas menos presentes o escenarios operativos faltantes. Este enfoque es el más eficaz, pero requiere tiempo y recursos para la recopilación y el etiquetado de las nuevas muestras.

Impacto esperado: mejora directa de la representatividad del conjunto de datos con datos reales que capturan la complejidad del mundo operativo.

Aumento de datos (Data augmentation)

Aplicar técnicas de aumento de datos para incrementar artificialmente la variedad de los datos existentes:

Para datos tabulares: SMOTE (Synthetic Minority Over-sampling Technique)
Para textos: traducción inversa (back-translation) y parafraseo
Para imágenes: transformaciones geométricas y de color

Es fundamental verificar que las técnicas de aumento no introduzcan artefactos poco realistas que podrían degradar el rendimiento del modelo.

Impacto esperado: aumento de la variedad de los datos sin necesidad de recopilación adicional, con cuidado de no introducir distorsiones artificiales.

Balanceo de datos

Aplicar técnicas de preprocesamiento como el sobremuestreo (oversampling) de las clases minoritarias, el submuestreo (undersampling) de las clases mayoritarias o la reponderación de muestras durante el entrenamiento. Estas técnicas permiten equilibrar la influencia de las diversas clases en el proceso de aprendizaje sin modificar los datos originales.

Impacto esperado: reducción del sesgo de clase y mejora de la equidad del modelo entre diferentes grupos.

Monitoreo continuo

Implementar procesos de integración continua que monitoreen constantemente la distribución y la equidad de los datos. Realizar auditorías de equidad (fairness audits) periódicas para verificar que los nuevos datos añadidos al conjunto de datos mantengan las características de diversidad y representatividad requeridas.

Impacto esperado: mantenimiento de la calidad del conjunto de datos a lo largo del tiempo y detección oportuna de desviaciones en la distribución de los datos.

Documentación

Compilar hojas de datos (datasheets) detalladas que documenten la motivación detrás de la recopilación de datos, la composición del conjunto de datos, el proceso de recopilación, los usos recomendados y las limitaciones conocidas. Esta documentación es esencial para garantizar la transparencia y permitir evaluaciones informadas sobre la idoneidad del conjunto de datos para casos de uso específicos.

Impacto esperado: transparencia completa sobre la composición y los límites del conjunto de datos, facilitando auditorías y el cumplimiento normativo.

Herramientas sugeridas

AI Fairness 360 (AIF360): kit de herramientas de código abierto de IBM para detectar y mitigar sesgos en conjuntos de datos y modelos de IA
Fairlearn: biblioteca de Python para evaluar y mejorar la equidad de los modelos de aprendizaje automático
What-If Tool: herramienta de Google para analizar visualmente conjuntos de datos y modelos de ML respecto a métricas de equidad
imbalanced-learn: biblioteca de Python para técnicas de remuestreo y balanceo de conjuntos de datos desequilibrados

Información adicional

Recursos técnicos y normativos para profundizar en la verificación de la diversidad y cobertura de los conjuntos de datos de IA:

Datasheets for Datasets (arXiv:1803.09010): marco de trabajo para documentar la composición y las características de los conjuntos de datos
A Framework for Understanding Unintended Consequences of Machine Learning: análisis de los impactos no intencionados de los sesgos en los conjuntos de datos
NIST Special Publication on Bias in AI: directrices para identificar y gestionar sesgos en los sistemas de IA
EU AI Act Requirements on Data Governance: requisitos normativos europeos sobre la gobernanza de datos para sistemas de IA

Cómo apoya ISGroup

ISGroup apoya a las organizaciones en la evaluación y mejora de la calidad de los conjuntos de datos utilizados para entrenar modelos de inteligencia artificial.

A través del servicio de Secure Architecture Review, nuestros expertos analizan la arquitectura de los sistemas de IA, verifican la representatividad de los conjuntos de datos e identifican posibles sesgos que podrían comprometer la equidad y la fiabilidad de los modelos.

Nuestro enfoque combina análisis técnicos profundos con la comprensión del contexto normativo y los requisitos de la IA Responsable, proporcionando recomendaciones concretas para mejorar la diversidad y la cobertura de los datos de entrenamiento.

Preguntas frecuentes

¿Cuál es la diferencia entre diversidad y cobertura de un conjunto de datos?
La diversidad se refiere a la variedad de grupos demográficos y características representadas en los datos. La cobertura se refiere a la integridad de los escenarios operativos y los casos de uso que el modelo deberá gestionar en producción. Un conjunto de datos puede estar diversificado pero tener poca cobertura de escenarios críticos, o viceversa.
¿Cómo se mide el sesgo en un conjunto de datos?
El sesgo se mide a través de métricas de equidad como la paridad demográfica (demographic parity), la igualdad de oportunidades (equal opportunity) y las cuotas igualadas (equalized odds). Estas métricas comparan el rendimiento del modelo entre diferentes grupos demográficos para identificar disparidades sistemáticas en los resultados.
¿Qué tan grande debe ser un conjunto de datos para ser considerado representativo?
No existe un tamaño mínimo universal. La representatividad depende de la complejidad del problema, del número de grupos demográficos relevantes y de la variedad de escenarios operativos. Como regla general, cada grupo relevante debería estar representado con al menos el 5% de las muestras totales, pero en algunos contextos pueden ser necesarios porcentajes mayores.
¿Cuáles son los riesgos normativos de un conjunto de datos no representativo?
Un conjunto de datos no representativo puede llevar a violaciones del RGPD por tratamiento discriminatorio, incumplimiento de la directiva NIS2 para sistemas críticos y violaciones de normativas sectoriales que requieren equidad algorítmica. Además, puede exponer a la organización a riesgos reputacionales y litigios legales por discriminación.
¿Cómo se documenta la composición de un conjunto de datos?
Se utilizan hojas de datos (datasheets) estructuradas que describen: motivación de la recopilación, composición demográfica y estadística, proceso de recopilación y anotación, usos recomendados y desaconsejados, limitaciones conocidas y sesgos identificados. Esta documentación es esencial para la transparencia y el cumplimiento normativo.
¿Puede el aumento de datos (data augmentation) sustituir la recopilación de nuevos datos reales?
No, el aumento de datos es un complemento útil pero no puede sustituir completamente la recopilación de datos reales. Las técnicas de aumento pueden introducir artefactos poco realistas y no capturan la complejidad del mundo real. Son eficaces para aumentar la variedad de datos existentes, pero no para cerrar brechas fundamentales en la representación.

Referencias

La integración de técnicas de análisis de diversidad, balanceo de datos y monitoreo continuo ayuda a construir modelos de IA más equitativos y fiables. Probar regularmente la representatividad y la cobertura de los conjuntos de datos es fundamental para garantizar que los sistemas de IA mantengan un rendimiento consistente y respeten los principios de la IA Responsable en producción.

ISGroup Consultoría de Ciberseguridad