Un conjunto estructurado de métricas permite evaluar el rendimiento, la seguridad y la alineación de un sistema de IA generativa (GenAI) a través de diversas categorías fundamentales.
Para profundizar en el contexto metodológico y las técnicas operativas, consulta la guía completa de GenAI Red Teaming.
Métricas de gobernanza y analítica para AI Red Team
Estas métricas comunican el valor general del AI Red Team a la empresa y monitorizan el progreso. Incluyen estadísticas sobre aplicaciones y sistemas, análisis de uso y datos cualitativos de diferentes grupos. Algunos ejemplos son:
- Número de pruebas completadas semanalmente por tema (ataques adversarios, sesgos, toxicidad, conversaciones atroces, alucinaciones, etc.)
- Análisis de prompts positivos y negativos
- Analítica de prompts negativos agrupados por tipo (HAP, sesgos, conversaciones atroces, etc.)
- Número de políticas de guardrail, agregadas y nuevas
- Número de modelos de IA y parámetros bajo Red Teaming
- Volumen de análisis sobre los prompts
- Número acumulativo de tokens procesados
- Métricas offline como estadísticas de GenAI Red Teaming y estadísticas de análisis de prompts
Métricas para ataques adversarios
Métricas de robustez
- Attack Success Rate (ASR) o Jailbreak Success Rate (JSR): porcentaje de entradas adversarias que logran explotar vulnerabilidades o provocar comportamientos no deseados
Métricas de detección
- Detection Rate: capacidad del sistema para detectar, bloquear o recuperarse de ataques adversarios; porcentaje de entradas adversarias identificadas correctamente por los mecanismos defensivos
Métricas de conocimiento
- Extracción de conocimiento: precisión al recuperar y presentar información
- Evaluación de sesgos: verificación de la presencia y magnitud de diversos sesgos en la base de conocimiento
Métricas específicas de conocimiento y razonamiento
- Factuality: precisión de la información proporcionada por la IA
- Relevance: alineación de las respuestas respecto a la consulta o el contexto
- Coherence: consistencia lógica y fluidez en la salida
- Groundedness: respuestas respaldadas por los datos o el contexto
- Comprehensiveness: integridad de las respuestas a una consulta
- Verbosity/Brevity/Conciseness: adecuación del nivel de detalle
- Tonality, Fluency: naturalidad y adecuación lingüística
- Language Mismatch & Egregious Conversation Detector: detección de respuestas fuera de tema o inapropiadas
- Helpfulness, Harmlessness: utilidad de la información, ausencia de daño
- Maliciousness, Criminality, Insensitivity: detección de contenidos dañinos, ofensivos o criminales
Métricas de razonamiento
- Exploración de los límites e identificación de los puntos de fallo en las capacidades de razonamiento de la IA
Métricas de comportamiento emergente y robustez
- Evaluar la robustez: mantenimiento del rendimiento y la seguridad en condiciones diversas
- Control de los comportamientos emergentes
Métricas de robustez
- Respuesta a entradas inesperadas/adversarias/fuera de distribución
- Consistencia con prompts ligeramente modificados
- Comportamiento predecible sobre un amplio espectro de entradas
- Identificación de modos de fallo y comportamientos emergentes
- Drift: monitorización de las variaciones de rendimiento o comportamiento a lo largo del tiempo
- Source Attribution: precisión en la atribución de las fuentes
- Hallucination: detección de información falsa o no respaldada
Métricas de alineación
- Medir la coherencia del sistema respecto a objetivos, directrices éticas y expectativas del usuario
Tríada de alineación de LLM
- Query relevance: la comprensión y respuesta del sistema respecto a la solicitud del usuario
- Context relevance: evaluar el uso y la pertinencia del contexto proporcionado
- Groundedness: respuestas bien respaldadas por el contexto y el conocimiento
Controles específicos de alineación
- Context relevance: ¿el contexto proporcionado es relevante para la consulta?
- Groundedness: ¿la respuesta está respaldada por el contexto?
- Question/Answer relevance: ¿la respuesta es pertinente respecto a la pregunta?
Métricas de sesgo
- Representación demográfica: evaluar la presencia (excesiva o insuficiente) de grupos demográficos
- Stereotype bias: identificar la presencia de representaciones o suposiciones estereotipadas
- Distributional Bias: equidad en la distribución de resultados entre diferentes grupos
- Representación de opiniones subjetivas variadas
- Capacidad equitativa en múltiples idiomas
- Gestión de temas política o moralmente sensibles
Métricas de equidad
- Statistical Parity Difference (SPD): diferencia en los resultados favorables entre clases mayoritarias y protegidas
- Disparate Impact (DI): comparación de la proporción de individuos que reciben un resultado favorable entre grupos mayoritarios y minoritarios
- Equal Opportunity Difference (EOD): desviación de la igualdad de oportunidades
- Average Absolute Odds Difference (AAOD): diferencia absoluta media de los odds entre grupos
Técnicas de evaluación adicionales
- Análisis de errores de tipo 1 y tipo 2: distinción entre errores de omisión (información faltante) y de comisión (información errónea)
- SQL Query Conversion: evaluación de la capacidad de la IA para convertir solicitudes en lenguaje natural a consultas SQL
Estas métricas proporcionan una evaluación completa del rendimiento, la seguridad y la alineación de los sistemas GenAI, permitiendo la identificación de puntos críticos en los diferentes aspectos del comportamiento y las capacidades de la IA.
Lecturas recomendadas
Para comprender mejor cómo aplicar estas métricas en el contexto operativo del red teaming de GenAI, podrían interesarte:
- GenAI Red Teaming: guía completa sobre la seguridad de los sistemas de IA generativa
- Técnicas operativas de GenAI Red Teaming para probar sistemas de IA
- Riesgos y amenazas en sistemas GenAI: análisis para el red teaming
- Estrategia de red teaming para LLM: hoja de ruta e implementación
- Herramientas y datasets para el red teaming de sistemas de IA generativa