Red Teaming de GenAI: mejores prácticas de OWASP y enfoques de las principales organizaciones de IA

Las organizaciones que trabajan con inteligencia artificial adoptan prácticas de Red Teaming para abordar los desafíos relacionados con la seguridad, la responsabilidad ética y la fiabilidad de los sistemas de IA generativa (GenAI). Algunas entidades influyentes estructuran sus procesos de Red Teaming de manera específica, integrando metodologías, herramientas y competencias distintivas para obtener evaluaciones eficaces y dirigidas en el campo de la IA generativa.

Para obtener una visión general completa de las metodologías y enfoques de Red Teaming para sistemas de inteligencia artificial generativa, consulta la guía de GenAI Red Teaming.

Cómo operan las principales organizaciones de inteligencia artificial

Organización A: automatización y sofisticación técnica

  • Ha formalizado los procesos de Red Teaming desde 2018, integrando la seguridad y las prácticas responsables.
  • Utiliza un marco automatizado que genera prompts, interactúa, analiza, evalúa y produce informes, permitiendo realizar pruebas de miles de prompts en poco tiempo.
  • Realiza Red Teaming tanto a nivel de modelo base como de aplicación para identificar vulnerabilidades de seguridad, equidad y problemas de contenido.
  • Evalúa riesgos como la inyección de prompts y el robo del modelo, combinándolos con aspectos de IA responsable.
  • La automatización permite la eficiencia, pero con supervisión humana para cubrir las brechas y mantener la calidad de las evaluaciones.

Organización B: integración entre seguridad e IA

  • El Red Team de IA trabaja junto a los equipos de seguridad tradicionales, uniendo competencias de IA y simulaciones realistas de amenazas.
  • El enfoque dual permite realizar pruebas completas de sistemas de IA en diferentes contextos.
  • Los escenarios adversarios complejos identifican vulnerabilidades como la extracción de datos de entrenamiento y ejemplos adversarios.
  • Colabora estrechamente con los equipos de seguridad para cerrar la brecha entre las vulnerabilidades tradicionales y las específicas de la IA.
  • Promueve el intercambio de lecciones aprendidas y el avance de los estándares de seguridad.

Organización C: innovación impulsada por la comunidad

  • Integra contribuciones internas y externas, fomentando la colaboración, la escalabilidad y la mejora continua.
  • La red de expertos externos evalúa diversos riesgos, desde los naturales hasta los éticos.
  • Automatiza el Red Teaming a gran escala, con supervisión humana para un análisis preciso.
  • Proporciona documentación detallada (“system cards”) sobre medidas de seguridad y vulnerabilidades, promoviendo la transparencia.

Organización D: enfoque multifactorial y orientado a políticas

  • Las pruebas iterativas mejoran la robustez de los modelos frente a posibles abusos.
  • Evalúa vulnerabilidades en diferentes tipos de contenido (texto, imágenes, video).
  • Se centra en aplicaciones críticas y en sistemas relevantes para la seguridad nacional y cultural.
  • Fomenta la participación amplia mediante Red Teaming abierto y desafíos (challenges).
  • Vincula los resultados con las decisiones de despliegue y recomienda prácticas estandarizadas.

Organización E: benchmarking y salvaguardas automáticas

  • Utiliza un marco de código abierto (open source) para evaluar empíricamente los riesgos y capacidades de los sistemas de IA.
  • Analiza ocho tipos de riesgos en categorías distintas: terceros y desarrolladores de aplicaciones.
  • Implementa herramientas de detección, mitigación y registro de comportamientos de riesgo de los modelos.
  • Simula operaciones a gran escala (incluidos escenarios de ransomware y generación de código exploit), combinando automatización y revisiones humanas.

Mejores prácticas para el Red Team de GenAI según OWASP

  • Establecer políticas, estándares y directrices: basarse en el contexto organizacional y en una representación correcta de los LLM utilizados, con el fin de contrarrestar fenómenos como Shadow IT o Shadow AI.
  • Definir objetivos claros para cada sesión: alinearlos con las estrategias de gestión de riesgos.
  • Establecer criterios de evaluación claros: definir parámetros objetivos distintos entre las variaciones naturales del modelo y los impactos de seguridad concretos.
  • Desarrollar suites de pruebas completas: preparar casos de prueba actualizados y diversificados que reflejen amenazas y escenarios de uso emergentes.
  • Fomentar la colaboración transversal: involucrar a especialistas de diferentes dominios y promover el intercambio de conocimientos.
  • Pensar en la ética: garantizar la adhesión a principios éticos, la protección de la privacidad y el respeto a la confianza de los usuarios, evitando usos indebidos de los datos y de las vulnerabilidades de los LLM.
  • Mantener una documentación detallada: registrar procedimientos, resultados y estrategias de mitigación.
  • Iterar y adaptar: usar los resultados de las pruebas para perfeccionar continuamente los sistemas y las prácticas de Red Teaming.
  • Monitorear de forma continua: integrar el Red Teaming desde las primeras fases de desarrollo (Shift Left) y a lo largo de todo el ciclo de vida del sistema de IA.
  • Enfoque basado en el riesgo: establecer el alcance del Red Teaming según el perfil de riesgo, dando prioridad a chatbots externos, aplicaciones que manejan datos sensibles o que conducen a acciones empresariales.
  • Integración continua en el ciclo de desarrollo: ejecutar pruebas automáticas en tuberías CI/CD y actualizar modelos y medidas de seguridad según los resultados.
  • Simulaciones realistas: preparar entornos de prueba que reflejen fielmente la realidad operativa, incluyendo usuarios y diferentes actores adversarios.
  • Equilibrar la automatización y la revisión manual: automatizar las tareas repetitivas y confiar el análisis de casos complejos a expertos humanos.
  • Adaptación constante: actualizar las estrategias de Red Teaming según las amenazas emergentes y el progreso de la investigación.
  • Supervisión humana: mantener la presencia de revisores en los procesos automatizados para garantizar la ética y la validez de las conclusiones.
  • Transparencia y reporting: asegurar una comunicación eficaz con los equipos de desarrollo y generar informes detallados y concretos.
  • Definir y monitorear métricas: realizar un seguimiento de los KPI de seguridad y fiabilidad, realizar benchmarking respecto a los estándares del sector y monitorear el “model drift”.
  • Colaboración entre equipos: promover la interacción entre el Red Team, el desarrollo y los interesados (stakeholders), fomentando la apertura y la mejora constante.
  • Evaluar periódicamente el alcance de las pruebas: actualizar la cobertura de las actividades de Red Team sobre nuevas funciones y riesgos identificados.
  • Garantizar la seguridad de las API: prestar atención a las API durante la integración de las aplicaciones de IA, identificando posibles vectores de ataque.
  • Auditorías externas y pruebas de terceros: enriquecer las evaluaciones internas con auditorías externas para obtener una perspectiva independiente.
  • Automatizar el Red Teaming de GenAI: usar LLM atacantes adecuadamente entrenados en datasets heterogéneos y no censurados, ya sean generados sintéticamente o recopilados de fuentes como GitHub o Hugging Face.
  • Estandarizar herramientas y metodologías: desarrollar herramientas de seguridad dedicadas y adoptar enfoques homogéneos en las evaluaciones de IA.
  • Formación continua: actualizar las competencias del equipo sobre los nuevos riesgos y las evoluciones del Red Teaming de IA.

Más información útil

Para profundizar en las técnicas, herramientas y metodologías del Red Teaming aplicado a los sistemas de inteligencia artificial generativa, consulta estos artículos: