![]() |
Tasa de Exito |
Investigadores de la firma NeuralTrust han revelado una nueva técnica de jailbreak que representa una amenaza significativa para los modelos de lenguaje más avanzados del mundo, como GPT-4 y Gemini. Bautizada como Echo Chamber, esta técnica no utiliza comandos explícitos ni frases maliciosas evidentes. En su lugar, explota la forma en que los modelos procesan y confían en el contexto de la conversación para manipularlos desde dentro.
A diferencia de otros métodos como Crescendo, que guían activamente la conversación hacia contenido prohibido, Echo Chamber siembra mensajes sutiles y aparentemente inocuos que, con el tiempo, inducen al modelo a generar respuestas que violan sus propias políticas de seguridad. Es un ataque de múltiples etapas que se basa en referencias indirectas, inferencias semánticas y razonamiento progresivo.
El proceso funciona como un bucle de retroalimentación: los primeros mensajes influyen en las respuestas del modelo, y esas respuestas se utilizan luego para reforzar el objetivo original del atacante. Así, el modelo comienza a amplificar subtextos dañinos sin que se le haya pedido explícitamente hacerlo.
En pruebas controladas, Echo Chamber logró tasas de éxito superiores al 90% en categorías sensibles como discurso de odio, violencia, sexismo y pornografía. Incluso en temas como desinformación y autolesiones, el ataque superó el 80% de efectividad. Esto demuestra que los sistemas actuales aún tienen dificultades para detectar manipulaciones contextuales sutiles, especialmente cuando se presentan en múltiples turnos de conversación.
El hallazgo pone en evidencia una vulnerabilidad profunda en los métodos actuales de alineación ética de modelos de lenguaje. No basta con filtrar palabras clave o rechazar prompts directos: los modelos deben aprender a detectar patrones de manipulación más complejos y contextuales.
Fuente: https://neuraltrust.ai/blog/echo-chamber-context-poisoning-jailbreak