Red Teaming de GenAI: mejores prácticas de OWASP y enfoques de las principales organizaciones de IA

Las organizaciones que trabajan con inteligencia artificial adoptan prácticas de Red Teaming para abordar los desafíos relacionados con la seguridad, la responsabilidad ética y la fiabilidad de los sistemas de IA generativa (GenAI). Algunas entidades influyentes estructuran sus procesos de Red Teaming de manera específica, integrando metodologías, herramientas y competencias distintivas para obtener evaluaciones eficaces y dirigidas en el campo de la IA generativa.

Para obtener una visión general completa de las metodologías y enfoques de Red Teaming para sistemas de inteligencia artificial generativa, consulta la guía de GenAI Red Teaming.

Cómo operan las principales organizaciones de inteligencia artificial

Organización A: automatización y sofisticación técnica

Ha formalizado los procesos de Red Teaming desde 2018, integrando la seguridad y las prácticas responsables.
Utiliza un marco automatizado que genera prompts, interactúa, analiza, evalúa y produce informes, permitiendo realizar pruebas de miles de prompts en poco tiempo.
Realiza Red Teaming tanto a nivel de modelo base como de aplicación para identificar vulnerabilidades de seguridad, equidad y problemas de contenido.
Evalúa riesgos como la inyección de prompts y el robo del modelo, combinándolos con aspectos de IA responsable.
La automatización permite la eficiencia, pero con supervisión humana para cubrir las brechas y mantener la calidad de las evaluaciones.

Organización B: integración entre seguridad e IA

El Red Team de IA trabaja junto a los equipos de seguridad tradicionales, uniendo competencias de IA y simulaciones realistas de amenazas.
El enfoque dual permite realizar pruebas completas de sistemas de IA en diferentes contextos.
Los escenarios adversarios complejos identifican vulnerabilidades como la extracción de datos de entrenamiento y ejemplos adversarios.
Colabora estrechamente con los equipos de seguridad para cerrar la brecha entre las vulnerabilidades tradicionales y las específicas de la IA.
Promueve el intercambio de lecciones aprendidas y el avance de los estándares de seguridad.

Organización C: innovación impulsada por la comunidad

Integra contribuciones internas y externas, fomentando la colaboración, la escalabilidad y la mejora continua.
La red de expertos externos evalúa diversos riesgos, desde los naturales hasta los éticos.
Automatiza el Red Teaming a gran escala, con supervisión humana para un análisis preciso.
Proporciona documentación detallada (“system cards”) sobre medidas de seguridad y vulnerabilidades, promoviendo la transparencia.

Organización D: enfoque multifactorial y orientado a políticas

Las pruebas iterativas mejoran la robustez de los modelos frente a posibles abusos.
Evalúa vulnerabilidades en diferentes tipos de contenido (texto, imágenes, video).
Se centra en aplicaciones críticas y en sistemas relevantes para la seguridad nacional y cultural.
Fomenta la participación amplia mediante Red Teaming abierto y desafíos (challenges).
Vincula los resultados con las decisiones de despliegue y recomienda prácticas estandarizadas.

Organización E: benchmarking y salvaguardas automáticas

Utiliza un marco de código abierto (open source) para evaluar empíricamente los riesgos y capacidades de los sistemas de IA.
Analiza ocho tipos de riesgos en categorías distintas: terceros y desarrolladores de aplicaciones.
Implementa herramientas de detección, mitigación y registro de comportamientos de riesgo de los modelos.
Simula operaciones a gran escala (incluidos escenarios de ransomware y generación de código exploit), combinando automatización y revisiones humanas.

Mejores prácticas para el Red Team de GenAI según OWASP

Establecer políticas, estándares y directrices: basarse en el contexto organizacional y en una representación correcta de los LLM utilizados, con el fin de contrarrestar fenómenos como Shadow IT o Shadow AI.
Definir objetivos claros para cada sesión: alinearlos con las estrategias de gestión de riesgos.
Establecer criterios de evaluación claros: definir parámetros objetivos distintos entre las variaciones naturales del modelo y los impactos de seguridad concretos.
Desarrollar suites de pruebas completas: preparar casos de prueba actualizados y diversificados que reflejen amenazas y escenarios de uso emergentes.
Fomentar la colaboración transversal: involucrar a especialistas de diferentes dominios y promover el intercambio de conocimientos.
Pensar en la ética: garantizar la adhesión a principios éticos, la protección de la privacidad y el respeto a la confianza de los usuarios, evitando usos indebidos de los datos y de las vulnerabilidades de los LLM.
Mantener una documentación detallada: registrar procedimientos, resultados y estrategias de mitigación.
Iterar y adaptar: usar los resultados de las pruebas para perfeccionar continuamente los sistemas y las prácticas de Red Teaming.
Monitorear de forma continua: integrar el Red Teaming desde las primeras fases de desarrollo (Shift Left) y a lo largo de todo el ciclo de vida del sistema de IA.
Enfoque basado en el riesgo: establecer el alcance del Red Teaming según el perfil de riesgo, dando prioridad a chatbots externos, aplicaciones que manejan datos sensibles o que conducen a acciones empresariales.
Integración continua en el ciclo de desarrollo: ejecutar pruebas automáticas en tuberías CI/CD y actualizar modelos y medidas de seguridad según los resultados.
Simulaciones realistas: preparar entornos de prueba que reflejen fielmente la realidad operativa, incluyendo usuarios y diferentes actores adversarios.
Equilibrar la automatización y la revisión manual: automatizar las tareas repetitivas y confiar el análisis de casos complejos a expertos humanos.
Adaptación constante: actualizar las estrategias de Red Teaming según las amenazas emergentes y el progreso de la investigación.
Supervisión humana: mantener la presencia de revisores en los procesos automatizados para garantizar la ética y la validez de las conclusiones.
Transparencia y reporting: asegurar una comunicación eficaz con los equipos de desarrollo y generar informes detallados y concretos.
Definir y monitorear métricas: realizar un seguimiento de los KPI de seguridad y fiabilidad, realizar benchmarking respecto a los estándares del sector y monitorear el “model drift”.
Colaboración entre equipos: promover la interacción entre el Red Team, el desarrollo y los interesados (stakeholders), fomentando la apertura y la mejora constante.
Evaluar periódicamente el alcance de las pruebas: actualizar la cobertura de las actividades de Red Team sobre nuevas funciones y riesgos identificados.
Garantizar la seguridad de las API: prestar atención a las API durante la integración de las aplicaciones de IA, identificando posibles vectores de ataque.
Auditorías externas y pruebas de terceros: enriquecer las evaluaciones internas con auditorías externas para obtener una perspectiva independiente.
Automatizar el Red Teaming de GenAI: usar LLM atacantes adecuadamente entrenados en datasets heterogéneos y no censurados, ya sean generados sintéticamente o recopilados de fuentes como GitHub o Hugging Face.
Estandarizar herramientas y metodologías: desarrollar herramientas de seguridad dedicadas y adoptar enfoques homogéneos en las evaluaciones de IA.
Formación continua: actualizar las competencias del equipo sobre los nuevos riesgos y las evoluciones del Red Teaming de IA.

Más información útil

Para profundizar en las técnicas, herramientas y metodologías del Red Teaming aplicado a los sistemas de inteligencia artificial generativa, consulta estos artículos: