Las organizaciones que trabajan con inteligencia artificial adoptan prácticas de Red Teaming para abordar los desafíos relacionados con la seguridad, la responsabilidad ética y la fiabilidad de los sistemas de IA generativa (GenAI). Algunas entidades influyentes estructuran sus procesos de Red Teaming de manera específica, integrando metodologías, herramientas y competencias distintivas para obtener evaluaciones eficaces y dirigidas en el campo de la IA generativa.
Para obtener una visión general completa de las metodologías y enfoques de Red Teaming para sistemas de inteligencia artificial generativa, consulta la guía de GenAI Red Teaming.
Cómo operan las principales organizaciones de inteligencia artificial
Organización A: automatización y sofisticación técnica
- Ha formalizado los procesos de Red Teaming desde 2018, integrando la seguridad y las prácticas responsables.
- Utiliza un marco automatizado que genera prompts, interactúa, analiza, evalúa y produce informes, permitiendo realizar pruebas de miles de prompts en poco tiempo.
- Realiza Red Teaming tanto a nivel de modelo base como de aplicación para identificar vulnerabilidades de seguridad, equidad y problemas de contenido.
- Evalúa riesgos como la inyección de prompts y el robo del modelo, combinándolos con aspectos de IA responsable.
- La automatización permite la eficiencia, pero con supervisión humana para cubrir las brechas y mantener la calidad de las evaluaciones.
Organización B: integración entre seguridad e IA
- El Red Team de IA trabaja junto a los equipos de seguridad tradicionales, uniendo competencias de IA y simulaciones realistas de amenazas.
- El enfoque dual permite realizar pruebas completas de sistemas de IA en diferentes contextos.
- Los escenarios adversarios complejos identifican vulnerabilidades como la extracción de datos de entrenamiento y ejemplos adversarios.
- Colabora estrechamente con los equipos de seguridad para cerrar la brecha entre las vulnerabilidades tradicionales y las específicas de la IA.
- Promueve el intercambio de lecciones aprendidas y el avance de los estándares de seguridad.
Organización C: innovación impulsada por la comunidad
- Integra contribuciones internas y externas, fomentando la colaboración, la escalabilidad y la mejora continua.
- La red de expertos externos evalúa diversos riesgos, desde los naturales hasta los éticos.
- Automatiza el Red Teaming a gran escala, con supervisión humana para un análisis preciso.
- Proporciona documentación detallada (“system cards”) sobre medidas de seguridad y vulnerabilidades, promoviendo la transparencia.
Organización D: enfoque multifactorial y orientado a políticas
- Las pruebas iterativas mejoran la robustez de los modelos frente a posibles abusos.
- Evalúa vulnerabilidades en diferentes tipos de contenido (texto, imágenes, video).
- Se centra en aplicaciones críticas y en sistemas relevantes para la seguridad nacional y cultural.
- Fomenta la participación amplia mediante Red Teaming abierto y desafíos (challenges).
- Vincula los resultados con las decisiones de despliegue y recomienda prácticas estandarizadas.
Organización E: benchmarking y salvaguardas automáticas
- Utiliza un marco de código abierto (open source) para evaluar empíricamente los riesgos y capacidades de los sistemas de IA.
- Analiza ocho tipos de riesgos en categorías distintas: terceros y desarrolladores de aplicaciones.
- Implementa herramientas de detección, mitigación y registro de comportamientos de riesgo de los modelos.
- Simula operaciones a gran escala (incluidos escenarios de ransomware y generación de código exploit), combinando automatización y revisiones humanas.
Mejores prácticas para el Red Team de GenAI según OWASP
- Establecer políticas, estándares y directrices: basarse en el contexto organizacional y en una representación correcta de los LLM utilizados, con el fin de contrarrestar fenómenos como Shadow IT o Shadow AI.
- Definir objetivos claros para cada sesión: alinearlos con las estrategias de gestión de riesgos.
- Establecer criterios de evaluación claros: definir parámetros objetivos distintos entre las variaciones naturales del modelo y los impactos de seguridad concretos.
- Desarrollar suites de pruebas completas: preparar casos de prueba actualizados y diversificados que reflejen amenazas y escenarios de uso emergentes.
- Fomentar la colaboración transversal: involucrar a especialistas de diferentes dominios y promover el intercambio de conocimientos.
- Pensar en la ética: garantizar la adhesión a principios éticos, la protección de la privacidad y el respeto a la confianza de los usuarios, evitando usos indebidos de los datos y de las vulnerabilidades de los LLM.
- Mantener una documentación detallada: registrar procedimientos, resultados y estrategias de mitigación.
- Iterar y adaptar: usar los resultados de las pruebas para perfeccionar continuamente los sistemas y las prácticas de Red Teaming.
- Monitorear de forma continua: integrar el Red Teaming desde las primeras fases de desarrollo (Shift Left) y a lo largo de todo el ciclo de vida del sistema de IA.
- Enfoque basado en el riesgo: establecer el alcance del Red Teaming según el perfil de riesgo, dando prioridad a chatbots externos, aplicaciones que manejan datos sensibles o que conducen a acciones empresariales.
- Integración continua en el ciclo de desarrollo: ejecutar pruebas automáticas en tuberías CI/CD y actualizar modelos y medidas de seguridad según los resultados.
- Simulaciones realistas: preparar entornos de prueba que reflejen fielmente la realidad operativa, incluyendo usuarios y diferentes actores adversarios.
- Equilibrar la automatización y la revisión manual: automatizar las tareas repetitivas y confiar el análisis de casos complejos a expertos humanos.
- Adaptación constante: actualizar las estrategias de Red Teaming según las amenazas emergentes y el progreso de la investigación.
- Supervisión humana: mantener la presencia de revisores en los procesos automatizados para garantizar la ética y la validez de las conclusiones.
- Transparencia y reporting: asegurar una comunicación eficaz con los equipos de desarrollo y generar informes detallados y concretos.
- Definir y monitorear métricas: realizar un seguimiento de los KPI de seguridad y fiabilidad, realizar benchmarking respecto a los estándares del sector y monitorear el “model drift”.
- Colaboración entre equipos: promover la interacción entre el Red Team, el desarrollo y los interesados (stakeholders), fomentando la apertura y la mejora constante.
- Evaluar periódicamente el alcance de las pruebas: actualizar la cobertura de las actividades de Red Team sobre nuevas funciones y riesgos identificados.
- Garantizar la seguridad de las API: prestar atención a las API durante la integración de las aplicaciones de IA, identificando posibles vectores de ataque.
- Auditorías externas y pruebas de terceros: enriquecer las evaluaciones internas con auditorías externas para obtener una perspectiva independiente.
- Automatizar el Red Teaming de GenAI: usar LLM atacantes adecuadamente entrenados en datasets heterogéneos y no censurados, ya sean generados sintéticamente o recopilados de fuentes como GitHub o Hugging Face.
- Estandarizar herramientas y metodologías: desarrollar herramientas de seguridad dedicadas y adoptar enfoques homogéneos en las evaluaciones de IA.
- Formación continua: actualizar las competencias del equipo sobre los nuevos riesgos y las evoluciones del Red Teaming de IA.
Más información útil
Para profundizar en las técnicas, herramientas y metodologías del Red Teaming aplicado a los sistemas de inteligencia artificial generativa, consulta estos artículos: