Claude Fable 5 hackeado en 48 horas: la seguridad de Anthropic vuelve a fallar
El investigador 'Pliny the Liberator' vulneró las barreras del modelo más seguro de Anthropic usando técnicas de jailbreak avanzadas.
14 de junio de 2026 · 5 min de lectura
Anthropic lanzó Claude Fable 5 como una versión más accesible de su poderoso modelo Mythos, prometiendo barreras de seguridad inviolables. Sin embargo, en menos de 48 horas, el investigador de ciberseguridad conocido como 'Pliny the Liberator' logró vulnerar el sistema, demostrando que ni los modelos más protegidos están a salvo de jailbreaks creativos. Este incidente no es un caso aislado, sino el último capítulo de una larga historia de vulnerabilidades en sistemas de IA que se remonta a los primeros chatbots. Desde 2022, cuando se descubrieron los primeros jailbreaks en ChatGPT, la comunidad de seguridad ha documentado cientos de técnicas que evolucionan más rápido que las defensas. Pliny, en particular, ha sido responsable de vulnerar modelos de OpenAI, xAI y Anthropic, consolidándose como un 'red teamer' de facto que expone las debilidades de la industria.
¿Qué ha ocurrido?
El 10 de junio de 2026, Pliny publicó en X que había 'liberado' a Claude Fable 5, logrando que respondiera a consultas prohibidas como fabricación de sustancias ilegales o técnicas de intrusión informática. Según Hipertextual, el ataque combinó múltiples métodos: uso de Unicode y homoglifos para ofuscar palabras clave, encuadres narrativos y académicos para enmascarar la intención, y una versión modificada de Claude Opus 4.8 como modelo auxiliar. La técnica más efectiva fue la descomposición y recomposición de peticiones en el backend, fragmentando consultas peligrosas en partes inocuas que, al unirse, generaban la respuesta prohibida. Este enfoque de 'ataque de descomposición' no es nuevo: ya se había utilizado contra modelos anteriores, pero Fable 5 fue diseñado específicamente para resistirlo mediante un filtro de seguridad contextual. Sin embargo, Pliny logró eludirlo al usar un modelo auxiliar para recomponer las partes, un método que Anthropic no había anticipado. Según el análisis de Pliny, el jailbreak explotó una debilidad en la capa de post-procesamiento de Fable 5, que no verificaba la coherencia semántica de las respuestas generadas a partir de fragmentos. El ataque completo tomó aproximadamente 12 horas de ingeniería inversa, según declaraciones del investigador a Wired.
¿Por qué es importante?
Este incidente subraya la fragilidad de los mecanismos de seguridad en modelos de lenguaje de última generación. Anthropic había publicitado Fable 5 como un modelo con 'seguridad reforzada', pero el jailbreak demostró que las defensas pueden ser eludidas con ingenio y herramientas accesibles. Para las empresas que integran estos modelos, la confianza en las barreras de contenido se ve comprometida. Un estudio de la Universidad de Stanford de 2025 mostró que el 78% de las empresas que usan LLMs en producción han experimentado al menos un incidente de jailbreak, y el coste medio de remediación supera los 500.000 dólares. Además, el responsable es una figura conocida: Pliny ya había vulnerado ChatGPT, Grok y versiones anteriores de Claude, lo que indica un patrón de debilidades recurrentes en la industria. En concreto, Pliny ha documentado más de 40 jailbreaks exitosos en modelos de Anthropic desde 2024, incluyendo Claude Opus 4 y Claude Sonnet 3.5. Este historial sugiere que los problemas de seguridad no son fallos puntuales, sino sistémicos, relacionados con la arquitectura de los modelos y las técnicas de entrenamiento de alineamiento.
Consecuencias y contexto
El hackeo de Fable 5 tiene implicaciones directas en la gobernanza de IA. Reguladores como la UE, que trabajan en la Ley de IA, podrían endurecer los requisitos de pruebas de seguridad antes del despliegue. Actualmente, la Ley de IA clasifica los modelos de alto riesgo y exige evaluaciones de seguridad, pero no especifica métodos de prueba para jailbreaks. Este incidente podría acelerar la inclusión de 'red teaming obligatorio' en la normativa. Para Anthropic, supone un golpe reputacional y la necesidad de revisar sus protocolos de red teaming. La empresa había invertido millones en seguridad, incluyendo un equipo de 50 personas dedicadas a pruebas de penetración, pero el ataque de Pliny muestra que los métodos tradicionales no bastan. A nivel técnico, el ataque revela que los jailbreaks evolucionan: ya no basta con prompts simples, sino que se utilizan técnicas de ofuscación y modelos auxiliares. Esto obliga a los desarrolladores a implementar defensas más robustas, como la detección de patrones de descomposición o el análisis semántico profundo. Empresas como Google y Microsoft ya están experimentando con 'modelos guardianes' que verifican la salida de los LLMs principales, pero su eficacia aún no está probada. El mercado de soluciones de seguridad para IA, valorado en 2.300 millones de dólares en 2025, podría crecer un 40% anual tras este incidente, según proyecciones de Gartner.
¿Qué deben saber los lectores?
Primero, ningún modelo de IA es invulnerable; las medidas de seguridad son una carrera armamentista constante. Como señaló el CEO de Anthropic, Dario Amodei, en una entrevista de 2025: 'La seguridad absoluta es un objetivo, no una realidad'. Segundo, los jailbreaks no siempre requieren conocimientos avanzados: herramientas como la descomposición de prompts están al alcance de usuarios con cierta experiencia. De hecho, Pliny ha publicado tutoriales detallados en GitHub que han sido vistos más de 100.000 veces. Tercero, las empresas que usan APIs de modelos deben implementar capas adicionales de filtrado en sus aplicaciones, no confiar únicamente en las barreras del proveedor. Un informe de la empresa de ciberseguridad CrowdStrike recomienda usar firewalls de contenido, monitoreo en tiempo real y equipos de red teaming internos. Por último, este incidente refuerza la necesidad de transparencia: Anthropic debería publicar un análisis detallado del ataque para que la comunidad pueda aprender y mejorar. Hasta ahora, la compañía solo ha emitido un comunicado breve diciendo que 'está investigando' y que 'tomará medidas correctivas', sin ofrecer detalles técnicos. Esta opacidad contrasta con la práctica de OpenAI, que publica informes de seguridad tras incidentes similares.
La historia de la seguridad en IA se escribe con jailbreaks. Cada nuevo modelo promete ser el más seguro, y cada vez un 'Pliny' demuestra lo contrario. La lección es clara: la seguridad no es un destino, sino un proceso continuo. Como dijo Bruce Schneier, experto en seguridad: 'La seguridad es un proceso, no un producto'. Este incidente es un recordatorio de que la innovación en IA debe ir acompañada de una inversión igualmente innovadora en defensas, y que la colaboración entre empresas, reguladores y la comunidad de investigadores es esencial para mantener el ritmo de las amenazas.
Puntos clave
- Claude Fable 5, considerado uno de los modelos más seguros, fue hackeado en menos de 48 horas.
- El ataque combinó homoglifos, descomposición de prompts y un modelo auxiliar.
- El responsable, Pliny the Liberator, ya había vulnerado otros modelos como ChatGPT y Grok.
- El incidente expone la necesidad de mejorar las pruebas de seguridad y la transparencia en IA.
- Las empresas deben implementar capas adicionales de filtrado en sus aplicaciones.
Preguntas frecuentes
¿Quién hackeó Claude Fable 5?
El investigador de ciberseguridad conocido como 'Pliny the Liberator', quien ya había vulnerado otros modelos de IA.
¿Qué técnicas usó el jailbreak?
Combinó Unicode y homoglifos, encuadres narrativos, descomposición y recomposición de peticiones, y un modelo auxiliar (Claude Opus 4.8 modificado).
¿Qué consecuencias tiene este hackeo?
Afecta la confianza en la seguridad de los modelos de IA, podría endurecer regulaciones y obliga a mejorar las defensas contra jailbreaks.
Fuentes utilizadas
Comentarios
Sé el primero en comentar.