Métricas de Red Teaming de GenAI: Evaluación del Rendimiento de Seguridad y Alineación de la IA

Un conjunto estructurado de métricas permite evaluar el rendimiento, la seguridad y la alineación de un sistema de IA generativa (GenAI) a través de diversas categorías fundamentales.

Para profundizar en el contexto metodológico y las técnicas operativas, consulta la guía completa de GenAI Red Teaming.

Métricas de gobernanza y analítica para AI Red Team

Estas métricas comunican el valor general del AI Red Team a la empresa y monitorizan el progreso. Incluyen estadísticas sobre aplicaciones y sistemas, análisis de uso y datos cualitativos de diferentes grupos. Algunos ejemplos son:

Número de pruebas completadas semanalmente por tema (ataques adversarios, sesgos, toxicidad, conversaciones atroces, alucinaciones, etc.)
Análisis de prompts positivos y negativos
Analítica de prompts negativos agrupados por tipo (HAP, sesgos, conversaciones atroces, etc.)
Número de políticas de guardrail, agregadas y nuevas
Número de modelos de IA y parámetros bajo Red Teaming
Volumen de análisis sobre los prompts
Número acumulativo de tokens procesados
Métricas offline como estadísticas de GenAI Red Teaming y estadísticas de análisis de prompts

Métricas para ataques adversarios

Métricas de robustez

Attack Success Rate (ASR) o Jailbreak Success Rate (JSR): porcentaje de entradas adversarias que logran explotar vulnerabilidades o provocar comportamientos no deseados

Métricas de detección

Detection Rate: capacidad del sistema para detectar, bloquear o recuperarse de ataques adversarios; porcentaje de entradas adversarias identificadas correctamente por los mecanismos defensivos

Métricas de conocimiento

Extracción de conocimiento: precisión al recuperar y presentar información
Evaluación de sesgos: verificación de la presencia y magnitud de diversos sesgos en la base de conocimiento

Métricas específicas de conocimiento y razonamiento

Factuality: precisión de la información proporcionada por la IA
Relevance: alineación de las respuestas respecto a la consulta o el contexto
Coherence: consistencia lógica y fluidez en la salida
Groundedness: respuestas respaldadas por los datos o el contexto
Comprehensiveness: integridad de las respuestas a una consulta
Verbosity/Brevity/Conciseness: adecuación del nivel de detalle
Tonality, Fluency: naturalidad y adecuación lingüística
Language Mismatch & Egregious Conversation Detector: detección de respuestas fuera de tema o inapropiadas
Helpfulness, Harmlessness: utilidad de la información, ausencia de daño
Maliciousness, Criminality, Insensitivity: detección de contenidos dañinos, ofensivos o criminales

Métricas de razonamiento

Exploración de los límites e identificación de los puntos de fallo en las capacidades de razonamiento de la IA

Métricas de comportamiento emergente y robustez

Evaluar la robustez: mantenimiento del rendimiento y la seguridad en condiciones diversas
Control de los comportamientos emergentes

Métricas de robustez

Respuesta a entradas inesperadas/adversarias/fuera de distribución
Consistencia con prompts ligeramente modificados
Comportamiento predecible sobre un amplio espectro de entradas
Identificación de modos de fallo y comportamientos emergentes
Drift: monitorización de las variaciones de rendimiento o comportamiento a lo largo del tiempo
Source Attribution: precisión en la atribución de las fuentes
Hallucination: detección de información falsa o no respaldada

Métricas de alineación

Medir la coherencia del sistema respecto a objetivos, directrices éticas y expectativas del usuario

Tríada de alineación de LLM

Query relevance: la comprensión y respuesta del sistema respecto a la solicitud del usuario
Context relevance: evaluar el uso y la pertinencia del contexto proporcionado
Groundedness: respuestas bien respaldadas por el contexto y el conocimiento

Controles específicos de alineación

Context relevance: ¿el contexto proporcionado es relevante para la consulta?
Groundedness: ¿la respuesta está respaldada por el contexto?
Question/Answer relevance: ¿la respuesta es pertinente respecto a la pregunta?

Métricas de sesgo

Representación demográfica: evaluar la presencia (excesiva o insuficiente) de grupos demográficos
Stereotype bias: identificar la presencia de representaciones o suposiciones estereotipadas
Distributional Bias: equidad en la distribución de resultados entre diferentes grupos
Representación de opiniones subjetivas variadas
Capacidad equitativa en múltiples idiomas
Gestión de temas política o moralmente sensibles

Métricas de equidad

Statistical Parity Difference (SPD): diferencia en los resultados favorables entre clases mayoritarias y protegidas
Disparate Impact (DI): comparación de la proporción de individuos que reciben un resultado favorable entre grupos mayoritarios y minoritarios
Equal Opportunity Difference (EOD): desviación de la igualdad de oportunidades
Average Absolute Odds Difference (AAOD): diferencia absoluta media de los odds entre grupos

Técnicas de evaluación adicionales

Análisis de errores de tipo 1 y tipo 2: distinción entre errores de omisión (información faltante) y de comisión (información errónea)
SQL Query Conversion: evaluación de la capacidad de la IA para convertir solicitudes en lenguaje natural a consultas SQL

Estas métricas proporcionan una evaluación completa del rendimiento, la seguridad y la alineación de los sistemas GenAI, permitiendo la identificación de puntos críticos en los diferentes aspectos del comportamiento y las capacidades de la IA.

Lecturas recomendadas

Para comprender mejor cómo aplicar estas métricas en el contexto operativo del red teaming de GenAI, podrían interesarte: