Los modelos de inteligencia artificial aprenden de los datos con los que son entrenados. Si estos datos no representan adecuadamente la variedad de escenarios, poblaciones y contextos del mundo real, el modelo corre el riesgo de producir resultados sesgados, discriminatorios o simplemente inadecuados cuando se utiliza en producción.
Este artículo forma parte del capítulo AI Data Testing de la OWASP AI Testing Guide.
Las pruebas de diversidad y cobertura de conjuntos de datos (dataset diversity & coverage) verifican que los datos utilizados para entrenar y validar un modelo de IA sean lo suficientemente representativos y diversos. Esta verificación es fundamental para garantizar la equidad, la fiabilidad y la capacidad de generalización del sistema.
Por qué la diversidad de los conjuntos de datos es un requisito de seguridad
Un conjunto de datos poco representativo no es solo un problema técnico: es una vulnerabilidad que puede generar impactos concretos en personas, procesos y cumplimiento normativo.
Cuando los datos de entrenamiento carecen de diversidad, el modelo tiende a replicar y amplificar los sesgos presentes en los propios datos. Esto se traduce en:
- Discriminación hacia grupos demográficos subrepresentados
- Errores sistemáticos en contextos no previstos durante el entrenamiento
- Rendimiento deficiente en escenarios operativos reales
- Pérdida de confianza por parte de los usuarios y riesgos reputacionales
- Incumplimiento de normativas sobre protección de datos y equidad algorítmica
Verificar la diversidad y la cobertura de los conjuntos de datos permite identificar estas lagunas antes de que el modelo se ponga en producción, reduciendo riesgos operativos, legales y reputacionales.
Objetivos de la prueba
Las pruebas de diversidad y cobertura de conjuntos de datos se centran en tres áreas principales:
- Representatividad demográfica: los conjuntos de datos deben reflejar de manera equilibrada los grupos demográficos, los contextos operativos y las condiciones que se encuentran en el mundo real
- Cobertura de escenarios: los datos deben incluir la variedad de situaciones que el modelo encontrará en producción
- Cumplimiento normativo y ético: los conjuntos de datos deben respetar los estándares de IA Responsable y las restricciones normativas aplicables al sector de referencia
Metodología y carga útil (payload)
Análisis de la representación demográfica
Se realiza un análisis estadístico para comparar la distribución demográfica presente en el conjunto de datos con la de la población de referencia o los usuarios esperados.
Este análisis requiere:
- Definición clara de los atributos sensibles relevantes para el contexto de la aplicación (edad, género, origen geográfico, condiciones socioeconómicas)
- Medición de la distribución de estos atributos en los datos de entrenamiento
- Comparación con la distribución esperada en la población objetivo
Indicador de vulnerabilidad: algunas categorías demográficas resultan representadas de manera significativamente diferente en comparación con los usuarios reales del sistema.
Verificación de la cobertura de escenarios operativos
Se evalúa la integridad y la variedad de los escenarios representados en el conjunto de datos con respecto al uso esperado del modelo.
Ejemplos de escenarios a verificar:
- Condiciones de iluminación variables para sistemas de visión artificial
- Diversidad lingüística y dialectal para sistemas de procesamiento de lenguaje natural
- Variabilidad de las condiciones ambientales para sistemas IoT
- Diversidad de dispositivos y configuraciones para aplicaciones móviles
Indicador de vulnerabilidad: faltan escenarios reales críticos o están subrepresentados; el modelo podría no gestionar correctamente situaciones comunes en el entorno de producción.
Detección de sesgos y medición de la equidad
Se utilizan métricas de equidad (fairness) como la paridad demográfica (demographic parity), la igualdad de oportunidades (equal opportunity) y las cuotas igualadas (equalized odds) para medir posibles desequilibrios en los resultados del modelo entre diferentes grupos.
El análisis de equidad se lleva a cabo tanto en los datos de entrenamiento como en los resultados del modelo, verificando que el rendimiento sea comparable entre los distintos grupos de referencia.
Indicador de vulnerabilidad: se identifican sesgos sustanciales o una representación desproporcionada de grupos específicos.
Resultado esperado
Un conjunto de datos adecuadamente diversificado y representativo debe cumplir con estos criterios mínimos:
- La distribución de los atributos demográficos refleja la de la población objetivo. Ningún grupo relevante debe estar representado con menos del 5% del total de las muestras
- La diferencia de paridad demográfica (Demographic Parity Difference) se mantiene por debajo del 15% para todos los atributos sensibles identificados
- El conjunto de datos incluye documentación transparente (datasheet) que describe las fuentes de los datos, la composición, el proceso de recopilación y las limitaciones conocidas
- La cobertura de los escenarios operativos es completa respecto a los casos de uso previstos en producción
Acciones de remediación
Cuando el análisis destaca lagunas en la diversidad o en la cobertura, es necesario intervenir con acciones específicas.
Enriquecimiento de datos
Adquirir nuevos datos provenientes de grupos subrepresentados, regiones geográficas menos presentes o escenarios operativos faltantes. Este enfoque es el más eficaz, pero requiere tiempo y recursos para la recopilación y el etiquetado de las nuevas muestras.
Impacto esperado: mejora directa de la representatividad del conjunto de datos con datos reales que capturan la complejidad del mundo operativo.
Aumento de datos (Data augmentation)
Aplicar técnicas de aumento de datos para incrementar artificialmente la variedad de los datos existentes:
- Para datos tabulares: SMOTE (Synthetic Minority Over-sampling Technique)
- Para textos: traducción inversa (back-translation) y parafraseo
- Para imágenes: transformaciones geométricas y de color
Es fundamental verificar que las técnicas de aumento no introduzcan artefactos poco realistas que podrían degradar el rendimiento del modelo.
Impacto esperado: aumento de la variedad de los datos sin necesidad de recopilación adicional, con cuidado de no introducir distorsiones artificiales.
Balanceo de datos
Aplicar técnicas de preprocesamiento como el sobremuestreo (oversampling) de las clases minoritarias, el submuestreo (undersampling) de las clases mayoritarias o la reponderación de muestras durante el entrenamiento. Estas técnicas permiten equilibrar la influencia de las diversas clases en el proceso de aprendizaje sin modificar los datos originales.
Impacto esperado: reducción del sesgo de clase y mejora de la equidad del modelo entre diferentes grupos.
Monitoreo continuo
Implementar procesos de integración continua que monitoreen constantemente la distribución y la equidad de los datos. Realizar auditorías de equidad (fairness audits) periódicas para verificar que los nuevos datos añadidos al conjunto de datos mantengan las características de diversidad y representatividad requeridas.
Impacto esperado: mantenimiento de la calidad del conjunto de datos a lo largo del tiempo y detección oportuna de desviaciones en la distribución de los datos.
Documentación
Compilar hojas de datos (datasheets) detalladas que documenten la motivación detrás de la recopilación de datos, la composición del conjunto de datos, el proceso de recopilación, los usos recomendados y las limitaciones conocidas. Esta documentación es esencial para garantizar la transparencia y permitir evaluaciones informadas sobre la idoneidad del conjunto de datos para casos de uso específicos.
Impacto esperado: transparencia completa sobre la composición y los límites del conjunto de datos, facilitando auditorías y el cumplimiento normativo.
Herramientas sugeridas
- AI Fairness 360 (AIF360): kit de herramientas de código abierto de IBM para detectar y mitigar sesgos en conjuntos de datos y modelos de IA
- Fairlearn: biblioteca de Python para evaluar y mejorar la equidad de los modelos de aprendizaje automático
- What-If Tool: herramienta de Google para analizar visualmente conjuntos de datos y modelos de ML respecto a métricas de equidad
- imbalanced-learn: biblioteca de Python para técnicas de remuestreo y balanceo de conjuntos de datos desequilibrados
Información adicional
Recursos técnicos y normativos para profundizar en la verificación de la diversidad y cobertura de los conjuntos de datos de IA:
- Datasheets for Datasets (arXiv:1803.09010): marco de trabajo para documentar la composición y las características de los conjuntos de datos
- A Framework for Understanding Unintended Consequences of Machine Learning: análisis de los impactos no intencionados de los sesgos en los conjuntos de datos
- NIST Special Publication on Bias in AI: directrices para identificar y gestionar sesgos en los sistemas de IA
- EU AI Act Requirements on Data Governance: requisitos normativos europeos sobre la gobernanza de datos para sistemas de IA
Cómo apoya ISGroup
ISGroup apoya a las organizaciones en la evaluación y mejora de la calidad de los conjuntos de datos utilizados para entrenar modelos de inteligencia artificial.
A través del servicio de Secure Architecture Review, nuestros expertos analizan la arquitectura de los sistemas de IA, verifican la representatividad de los conjuntos de datos e identifican posibles sesgos que podrían comprometer la equidad y la fiabilidad de los modelos.
Nuestro enfoque combina análisis técnicos profundos con la comprensión del contexto normativo y los requisitos de la IA Responsable, proporcionando recomendaciones concretas para mejorar la diversidad y la cobertura de los datos de entrenamiento.
Preguntas frecuentes
- ¿Cuál es la diferencia entre diversidad y cobertura de un conjunto de datos?
- La diversidad se refiere a la variedad de grupos demográficos y características representadas en los datos. La cobertura se refiere a la integridad de los escenarios operativos y los casos de uso que el modelo deberá gestionar en producción. Un conjunto de datos puede estar diversificado pero tener poca cobertura de escenarios críticos, o viceversa.
- ¿Cómo se mide el sesgo en un conjunto de datos?
- El sesgo se mide a través de métricas de equidad como la paridad demográfica (demographic parity), la igualdad de oportunidades (equal opportunity) y las cuotas igualadas (equalized odds). Estas métricas comparan el rendimiento del modelo entre diferentes grupos demográficos para identificar disparidades sistemáticas en los resultados.
- ¿Qué tan grande debe ser un conjunto de datos para ser considerado representativo?
- No existe un tamaño mínimo universal. La representatividad depende de la complejidad del problema, del número de grupos demográficos relevantes y de la variedad de escenarios operativos. Como regla general, cada grupo relevante debería estar representado con al menos el 5% de las muestras totales, pero en algunos contextos pueden ser necesarios porcentajes mayores.
- ¿Cuáles son los riesgos normativos de un conjunto de datos no representativo?
- Un conjunto de datos no representativo puede llevar a violaciones del RGPD por tratamiento discriminatorio, incumplimiento de la directiva NIS2 para sistemas críticos y violaciones de normativas sectoriales que requieren equidad algorítmica. Además, puede exponer a la organización a riesgos reputacionales y litigios legales por discriminación.
- ¿Cómo se documenta la composición de un conjunto de datos?
- Se utilizan hojas de datos (datasheets) estructuradas que describen: motivación de la recopilación, composición demográfica y estadística, proceso de recopilación y anotación, usos recomendados y desaconsejados, limitaciones conocidas y sesgos identificados. Esta documentación es esencial para la transparencia y el cumplimiento normativo.
- ¿Puede el aumento de datos (data augmentation) sustituir la recopilación de nuevos datos reales?
- No, el aumento de datos es un complemento útil pero no puede sustituir completamente la recopilación de datos reales. Las técnicas de aumento pueden introducir artefactos poco realistas y no capturan la complejidad del mundo real. Son eficaces para aumentar la variedad de datos existentes, pero no para cerrar brechas fundamentales en la representación.
Referencias
- AITG-DAT-01: Testing for Training Data Exposure
- AITG-DAT-02: Testing for Runtime Exfiltration
- AITG-DAT-04: Testing for Harmful Content in Data
- AITG-DAT-05: Testing for Data Minimization & Consent
La integración de técnicas de análisis de diversidad, balanceo de datos y monitoreo continuo ayuda a construir modelos de IA más equitativos y fiables. Probar regularmente la representatividad y la cobertura de los conjuntos de datos es fundamental para garantizar que los sistemas de IA mantengan un rendimiento consistente y respeten los principios de la IA Responsable en producción.
Leave a Reply