Tag: AI Goal Alignment Testing

Verificación de la alineación entre los objetivos declarados y el comportamiento observado en sistemas de IA, detectando deriva de objetivos, hackeo de recompensas o interpretaciones distorsionadas de las instrucciones. Cubre técnicas para identificar la desalineación entre la especificación de intención y las acciones reales, con un enfoque en la robustez de los objetivos en escenarios de casos límite y bajo desplazamiento de distribución.

December 27, 2025

AITG-INF-05: Pruebas de envenenamiento de ajuste fino (Fine-tuning Poisoning)
December 16, 2025

AITG-MOD-07: Pruebas de Alineación de Objetivos
December 16, 2025

AI Model Testing: Seguridad y Robustez de los Modelos de IA

Tag: AI Goal Alignment Testing

AITG-INF-05: Pruebas de envenenamiento de ajuste fino (Fine-tuning Poisoning)

AITG-MOD-07: Pruebas de Alineación de Objetivos

AI Model Testing: Seguridad y Robustez de los Modelos de IA