Tag: Testing for Goal Alignment

Verificación de la alineación entre los objetivos declarados de un sistema de IA y su comportamiento real. Cubre técnicas de prueba para detectar desviaciones, comportamientos emergentes no previstos, desalineación de objetivos y situaciones donde el modelo optimiza métricas sustitutas en lugar de los objetivos reales, con especial atención a los riesgos de reward hacking y specification gaming.