Tag: Testing for Prompt Disclosure
La divulgación de prompts se refiere a la capacidad de extraer el prompt del sistema o las instrucciones internas de una aplicación basada en LLM mediante técnicas de obtención. Las pruebas evalúan si un atacante puede recuperar plantillas de prompts, configuraciones de sistema, ejemplos few-shot, guardrails internos o lógica de aplicación oculta mediante consultas específicas, técnicas de role-playing o manipulación del contexto conversacional. La divulgación de prompts expone propiedad intelectual, lógica de negocio y puede facilitar ataques más sofisticados.