Tag: Testing for Toxic Output
Verificación de la capacidad de los sistemas de IA y LLM para generar contenido tóxico, ofensivo, discriminatorio o éticamente problemático. Incluye pruebas de sesgo, discurso de odio, desinformación, contenido violento o inapropiado, y técnicas de jailbreaking que eluden los filtros de seguridad para inducir al modelo a producir salidas dañinas o no conformes.