Herramientas y Datasets para Red Teaming en LLM y GenAI – ISGroup Consultoría de Ciberseguridad

El Apéndice B del proyecto “Red Teaming LLM” de OWASP presenta una lista de herramientas y conjuntos de datos (datasets), desarrollados y seleccionados basándose en la experiencia colectiva de los operadores y autores involucrados. El catálogo incluye recursos diseñados para el Red Teaming en GenAI y LLM. La lista no es exhaustiva y se actualiza con nuevas soluciones seleccionadas. Las organizaciones que deseen incluir herramientas específicas para el Red Teaming en GenAI en el catálogo deben ponerse en contacto con el equipo de OWASP para proponer su inclusión. El uso de herramientas provenientes de repositorios públicos conlleva riesgos: es responsabilidad de los usuarios evaluar su seguridad antes de adoptarlas.

Para obtener un panorama completo de las metodologías y el marco operativo, consulte la guía de Red Teaming para GenAI.

Herramientas para Red Teaming de LLM y GenAI

ASCII Smuggler: herramienta para ocultar contenido en los prompts.
https://embracethered.com/blog/ascii-smuggler.html (Código abierto)
Adversarial Attacks and Defences in Machine Learning (AAD) Framework: framework de Python para la defensa de modelos de ML contra ejemplos adversarios.
https://github.com/changx03/adversarial_attack_defence (Código fuente disponible)
Adversarial Robustness Toolbox (ART): biblioteca de Python para la seguridad en ML.
https://github.com/Trusted-AI/adversarial-robustness-toolbox (Licencia MIT)
Advertorch: caja de herramientas de Python para la investigación sobre robustez y ataques adversarios en PyTorch.
https://github.com/BorealisAI/advertorch (GNU LGPL v3.0)
CleverHans: biblioteca de Python para probar la vulnerabilidad de los sistemas de ML ante ejemplos adversarios.
https://github.com/cleverhans-lab/cleverhans (Licencia MIT)
CyberSecEval: benchmark para cuantificar riesgos y capacidades de seguridad en LLM.
https://ai.meta.com/research/publications/cyberseceval-3-advancing-the-evaluation-of-cybersecurity-risks-and-capabilities-in-large-language-models/ (Licencia MIT)
DeepEval: evaluación de LLM, pruebas unitarias y métricas de salida múltiples.
https://github.com/confident-ai/deepeval (Licencia Apache 2.0)
Deep-pwning: framework ligero para evaluar la robustez de los modelos de ML contra adversarios motivados.
https://github.com/cchio/deep-pwning (Licencia MIT)
Dioptra: plataforma para probar la fiabilidad de los sistemas de IA.
https://pages.nist.gov/dioptra/index.html (CC BY 4.0)
Foolbox: herramienta para ataques adversarios y benchmarking de robustez en ML para PyTorch, TensorFlow y JAX.
https://github.com/bethgelab/foolbox (Licencia MIT)
Garak: kit para red-teaming y evaluación de GenAI.
https://garak.ai/ (Licencia Apache 2.0)

https://github.com/NVIDIA/garak
Giskard: suite de pruebas para ML y LLM.
https://www.giskard.ai/ (Licencia Apache 2.0)
Generative Offensive Agent Tester (GOAT): sistema automatizado que simula conversaciones adversarias para identificar vulnerabilidades en LLM.
https://arxiv.org/abs/2410.01606
Gymnasium: biblioteca de Python con API estándar para pruebas y desarrollo de aprendizaje por refuerzo (reinforcement learning).
https://github.com/Farama-Foundation/Gymnasium (Licencia MIT)
Harmbench: framework de código abierto escalable para la evaluación de métodos automatizados de Red Teaming y ataques/defensas en LLM.
https://github.com/centerforaisafety/HarmBench (Licencia MIT)
HouYi: framework para ataques mediante inyección de prompts en aplicaciones integradas con LLM.
https://github.com/LLMSecurity/HouYi?tab=readme-ov-file (Licencia Apache 2.0)
JailbreakingLLMs – PAIR: pruebas de jailbreak para LLM con Prompt Automatic Iterative Refinement.
https://github.com/patrickrchao/JailbreakingLLMs (Licencia MIT)
Llamator: pentesting para aplicaciones RAG.
https://github.com/RomiconEZ/LLaMator (CC)
LLM Attacks: automatización en la creación de ataques adversarios contra LLM.
https://llm-attacks.org/ (Licencia MIT)
LLM Canary: benchmarking y puntuación en LLM. (Licencia Apache 2.0)
Modelscan: detección de ataques de serialización de modelos (Model Serialization).
https://github.com/protectai/modelscan (Licencia Apache 2.0)
MoonShot: herramienta modular para evaluar aplicaciones de LLM.
https://github.com/aiverify-foundation/moonshot (Licencia Apache Software 2)
Prompt Fuzzer: herramienta para pruebas de seguridad en prompts de GenAI contra ataques dinámicos a LLM.
https://github.com/prompt-security/ps-fuzz (Licencia MIT)
Promptfoo: Red Teaming, pruebas de penetración y escaneo de vulnerabilidades en LLM.
https://github.com/promptfoo/promptfoo (Licencia MIT)
ps-fuzz: herramienta interactiva para la seguridad de prompts en GenAI.
https://github.com/prompt-security/ps-fuzz (Licencia MIT)
PromptInject: análisis cuantitativo sobre la robustez de los LLM frente a prompts adversarios.
https://github.com/agencyenterprise/PromptInject (Licencia MIT)
Promptmap: inyección de prompts en instancias de ChatGPT.
https://github.com/utkusen/promptmap (Licencia MIT)
Python Risk Identification Toolkit (PyRIT): biblioteca de Microsoft para evaluar la robustez de los endpoints de LLM en relación con contenidos como alucinaciones, sesgos y contenido prohibido.
https://github.com/Azure/PyRIT (Licencia MIT)
SplxAI: Red Teaming automatizado para IA conversacional.
https://splx.ai/
StrongREJECT: benchmark de jailbreak con metodología de evaluación.
https://github.com/alexandrasouly/strongreject,
https://arxiv.org/abs/2402.10260 (Licencia MIT)

Conjuntos de datos (Datasets) para Red Teaming en GenAI

AdvBench: ataques adversarios universales y transferibles en modelos lingüísticos alineados.
https://github.com/llm-attacks/llm-attacks (Código abierto)
BBQ Bias Benchmark for Question Answering: benchmark de sesgos para tareas de QA (pregunta-respuesta).
https://github.com/nyu-mll/BBQ (Código abierto)
Bot Adversarial Dialogue Dataset: conjunto de datos de diálogos adversarios para bots.
https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue (Código abierto)
HarmBench: framework estándar para Red Teaming automatizado y rechazo robusto (robust refusal).
https://github.com/centerforaisafety/HarmBench (Código abierto)
JailbreakBench: benchmark abierto para la robustez de los LLM frente al jailbreaking.
https://github.com/JailbreakBench/jailbreakbench (Código abierto)
HAP: modelos eficientes para la detección de odio, abuso y lenguaje soez.
https://arxiv.org/abs/2402.05624 (Código abierto)

Recursos adicionales para la seguridad de la IA

El proyecto OWASP también destaca el “AI Security Solutions Landscape”, un recurso que recopila controles de seguridad, tanto tradicionales como emergentes, para abordar los riesgos de los LLM y la IA generativa mapeados en el OWASP Top 10.

Información adicional útil

Para profundizar en las metodologías operativas y los marcos de referencia para el Red Teaming en sistemas de GenAI, consulte estos artículos: