TheVortiq

Etiqueta

inyección de prompt

the letter a is placed on top of a circuit board
Inteligencia Artificial4 de julio de 2026 · 3 min

CoT Forgery: nuevo ataque engaña a LLMs haciéndose pasar por su propio razonamiento

Un equipo de investigadores ha descubierto una vulnerabilidad crítica en los modelos de lenguaje: el ataque CoT Forgery. Al inyectar razonamiento falso que imita el estilo de la cadena de pensamiento del modelo, logran que este ignore las restricciones de seguridad y ejecute instrucciones peligrosas. El hallazgo revela que la seguridad de los LLMs depende de etiquetas de rol fácilmente eludibles.