Tag: AI Goal Alignment Testing
Verificación de la alineación entre los objetivos declarados y el comportamiento observado en sistemas de IA, detectando deriva de objetivos, hackeo de recompensas o interpretaciones distorsionadas de las instrucciones. Cubre técnicas para identificar la desalineación entre la especificación de intención y las acciones reales, con un enfoque en la robustez de los objetivos en escenarios de casos límite y bajo desplazamiento de distribución.