Métricas de Red Teaming de GenAI: Evaluación del Rendimiento de Seguridad y Alineación de la IA

Un conjunto estructurado de métricas permite evaluar el rendimiento, la seguridad y la alineación de un sistema de IA generativa (GenAI) a través de diversas categorías fundamentales.

Para profundizar en el contexto metodológico y las técnicas operativas, consulta la guía completa de GenAI Red Teaming.

Métricas de gobernanza y analítica para AI Red Team

Estas métricas comunican el valor general del AI Red Team a la empresa y monitorizan el progreso. Incluyen estadísticas sobre aplicaciones y sistemas, análisis de uso y datos cualitativos de diferentes grupos. Algunos ejemplos son:

  • Número de pruebas completadas semanalmente por tema (ataques adversarios, sesgos, toxicidad, conversaciones atroces, alucinaciones, etc.)
  • Análisis de prompts positivos y negativos
  • Analítica de prompts negativos agrupados por tipo (HAP, sesgos, conversaciones atroces, etc.)
  • Número de políticas de guardrail, agregadas y nuevas
  • Número de modelos de IA y parámetros bajo Red Teaming
  • Volumen de análisis sobre los prompts
  • Número acumulativo de tokens procesados
  • Métricas offline como estadísticas de GenAI Red Teaming y estadísticas de análisis de prompts

Métricas para ataques adversarios

Métricas de robustez

  • Attack Success Rate (ASR) o Jailbreak Success Rate (JSR): porcentaje de entradas adversarias que logran explotar vulnerabilidades o provocar comportamientos no deseados

Métricas de detección

  • Detection Rate: capacidad del sistema para detectar, bloquear o recuperarse de ataques adversarios; porcentaje de entradas adversarias identificadas correctamente por los mecanismos defensivos

Métricas de conocimiento

  • Extracción de conocimiento: precisión al recuperar y presentar información
  • Evaluación de sesgos: verificación de la presencia y magnitud de diversos sesgos en la base de conocimiento

Métricas específicas de conocimiento y razonamiento

  • Factuality: precisión de la información proporcionada por la IA
  • Relevance: alineación de las respuestas respecto a la consulta o el contexto
  • Coherence: consistencia lógica y fluidez en la salida
  • Groundedness: respuestas respaldadas por los datos o el contexto
  • Comprehensiveness: integridad de las respuestas a una consulta
  • Verbosity/Brevity/Conciseness: adecuación del nivel de detalle
  • Tonality, Fluency: naturalidad y adecuación lingüística
  • Language Mismatch & Egregious Conversation Detector: detección de respuestas fuera de tema o inapropiadas
  • Helpfulness, Harmlessness: utilidad de la información, ausencia de daño
  • Maliciousness, Criminality, Insensitivity: detección de contenidos dañinos, ofensivos o criminales

Métricas de razonamiento

  • Exploración de los límites e identificación de los puntos de fallo en las capacidades de razonamiento de la IA

Métricas de comportamiento emergente y robustez

  • Evaluar la robustez: mantenimiento del rendimiento y la seguridad en condiciones diversas
  • Control de los comportamientos emergentes

Métricas de robustez

  • Respuesta a entradas inesperadas/adversarias/fuera de distribución
  • Consistencia con prompts ligeramente modificados
  • Comportamiento predecible sobre un amplio espectro de entradas
  • Identificación de modos de fallo y comportamientos emergentes
  • Drift: monitorización de las variaciones de rendimiento o comportamiento a lo largo del tiempo
  • Source Attribution: precisión en la atribución de las fuentes
  • Hallucination: detección de información falsa o no respaldada

Métricas de alineación

  • Medir la coherencia del sistema respecto a objetivos, directrices éticas y expectativas del usuario

Tríada de alineación de LLM

  • Query relevance: la comprensión y respuesta del sistema respecto a la solicitud del usuario
  • Context relevance: evaluar el uso y la pertinencia del contexto proporcionado
  • Groundedness: respuestas bien respaldadas por el contexto y el conocimiento

Controles específicos de alineación

  • Context relevance: ¿el contexto proporcionado es relevante para la consulta?
  • Groundedness: ¿la respuesta está respaldada por el contexto?
  • Question/Answer relevance: ¿la respuesta es pertinente respecto a la pregunta?

Métricas de sesgo

  • Representación demográfica: evaluar la presencia (excesiva o insuficiente) de grupos demográficos
  • Stereotype bias: identificar la presencia de representaciones o suposiciones estereotipadas
  • Distributional Bias: equidad en la distribución de resultados entre diferentes grupos
  • Representación de opiniones subjetivas variadas
  • Capacidad equitativa en múltiples idiomas
  • Gestión de temas política o moralmente sensibles

Métricas de equidad

  • Statistical Parity Difference (SPD): diferencia en los resultados favorables entre clases mayoritarias y protegidas
  • Disparate Impact (DI): comparación de la proporción de individuos que reciben un resultado favorable entre grupos mayoritarios y minoritarios
  • Equal Opportunity Difference (EOD): desviación de la igualdad de oportunidades
  • Average Absolute Odds Difference (AAOD): diferencia absoluta media de los odds entre grupos

Técnicas de evaluación adicionales

  • Análisis de errores de tipo 1 y tipo 2: distinción entre errores de omisión (información faltante) y de comisión (información errónea)
  • SQL Query Conversion: evaluación de la capacidad de la IA para convertir solicitudes en lenguaje natural a consultas SQL

Estas métricas proporcionan una evaluación completa del rendimiento, la seguridad y la alineación de los sistemas GenAI, permitiendo la identificación de puntos críticos en los diferentes aspectos del comportamiento y las capacidades de la IA.

Lecturas recomendadas

Para comprender mejor cómo aplicar estas métricas en el contexto operativo del red teaming de GenAI, podrían interesarte: