Aikido

El alarmismo en ciberseguridad en torno a Mythos no se corresponde con lo que observamos en la práctica

Escrito por
Sooraj Shah

La cobertura reciente en torno al último modelo Mythos de Anthropic se ha centrado casi por completo en lo que podría hacer por los atacantes. Un borrador de entrada de blog filtrado, visto por Fortune, describe el modelo como capaz de  “explotar vulnerabilidades de maneras que superan con creces los esfuerzos de los defensores”. Tanto es así que Anthropic afirma que quiere proceder con cautela y comprender adecuadamente los posibles “riesgos a corto plazo del modelo en el ámbito de la ciberseguridad” antes de continuar. 

Lo que siguió fue predecible: titulares sobre  “la inminente pesadilla cibernética de la IA”, proveedores de ciberseguridad advirtiendo sobre la democratización de los ciberataques y una aceptación general de que la balanza se ha inclinado.

Inquietante, ¿verdad?

Bueno, a primera vista, sí. Pero la balanza no se ha inclinado. El marco catastrofista se basa en la suposición de que la capacidad del modelo se traduce directamente en una ventaja para el atacante. Pero nuestros datos sugieren lo contrario. 

La suposición detrás de la narrativa de Mythos

De hecho, sabemos que los modelos de IA acelerarán los flujos de trabajo de ataque. Pero la eficacia de esto depende en gran medida de un contexto profundo del sistema, algo de lo que los atacantes carecen en gran medida. 

Las capacidades de ciberseguridad atribuidas a modelos como Mythos se superponen significativamente con lo que los sistemas de IA ya están haciendo en entornos controlados de pruebas de seguridad. Descubrimiento de vulnerabilidades, razonamiento sobre código, ataques de varios pasos. Nuestra propia experiencia de 1.000 pruebas de penetración de IA en el mundo real nos da una visión de cómo cambia el rendimiento bajo diferentes condiciones.

El patrón es consistente. Las pruebas de caja blanca, donde el código fuente de la aplicación objetivo está disponible, revelaron 7 veces más problemas críticos y de alta severidad y funcionaron aproximadamente con el doble de eficiencia que las pruebas de caja gris con acceso limitado al código fuente. Esto sugiere que la eficacia de la IA es altamente sensible al contexto, en lugar de solo a la capacidad bruta. 

En la práctica, ese contexto proviene de combinar el análisis estático y dinámico. Analizar el código o el comportamiento de forma aislada solo ofrece una visión parcial. Cuando ambos sistemas están disponibles, los sistemas pueden conectar el código escrito con su comportamiento en ejecución, y la profundidad de los hallazgos cambia. También modifica la economía. Se necesitan menos intentos (y, por lo tanto, menos tokens) para sacar a la luz problemas significativos.

Las reflexiones actuales en torno a Mythos asumen que los atacantes se beneficiarán más de los últimos modelos de vanguardia. Pero, en la práctica, esto no tiene en cuenta que los atacantes son los que tienen un contexto limitado. Infieren los detalles del sistema desde el exterior, mientras que los defensores ya tienen acceso a cómo funcionan realmente esos sistemas.

El contexto es la limitación, no la capacidad

De hecho, se le da mucho valor a cómo los propios desarrolladores del modelo describen la capacidad; lo mismo ocurrió cuando Anthropic afirmó que Claude Opus 4.6 descubrió más de 500 vulnerabilidades de alta severidad en bibliotecas de código abierto. Estas afirmaciones muestran lo que los modelos pueden hacer en condiciones ideales. Pero se habla poco de cómo cambia el rendimiento cuando se opera sin una visibilidad completa del sistema. 

La principal variable aquí es el contexto. El acceso al código fuente y a la lógica interna de la aplicación determina lo que los agentes de prueba pueden evaluar de manera significativa. La capacidad por sí sola no se traduce en resultados. Sin un contexto de código estático y dinámico suficiente, incluso los modelos más avanzados no logran superar a los modelos de código abierto ligeros debido a una comprensión incompleta del sistema que están investigando.

Considere la reciente vulneración de Axios, uno de los paquetes más utilizados en el registro NPM. El atacante no cambió el código fuente. Comprometieron una cuenta de mantenedor, añadieron una nueva dependencia y publicaron una actualización. El ataque funcionó porque no había ninguna CVE conocida con la que comparar, ningún patrón de código malicioso que señalar, ninguna firma que un escáner pudiera detectar. El ataque tuvo éxito porque cada herramienta de la cadena carecía del contexto para ver lo que realmente había cambiado. 

Una organización con visibilidad profunda de su árbol de dependencias —sabiendo no solo qué paquetes utiliza, sino también qué hacen esos paquetes, cómo se comportan y cómo es una actualización legítima— habría tenido una base para cuestionar ese cambio. Sin ella, ninguna cantidad de velocidad o capacidad ayuda. Por eso el actual marco de que “la IA favorece a los atacantes” pierde el punto clave. Aquí es donde el enfoque de las pruebas impulsadas por IA comienza a divergir. Dado el contexto completo a través del código y el comportamiento en tiempo de ejecución, estas herramientas agénticas privilegiadas identifican problemas que las pruebas superficiales simplemente pasan por alto.

Y, sin embargo, nada de esto significa que la ventaja de contexto del defensor para la visibilidad del código y el tiempo de ejecución sea permanente. La IA, por supuesto, también reducirá el coste de adquirir contexto; pero la narrativa actual implica que ha habido un cambio de equilibrio de la noche a la mañana. Construir una comprensión genuina del sistema es un trabajo lento y complejo, y aunque los modelos de IA serán cada vez más capaces de deducir ciertos aspectos del contexto, nunca podrán igualar la claridad que proviene del acceso al código fuente real, las credenciales/tokens de API y aplicación, y la capacidad de analizar rápidamente la lógica de negocio interna a través de los componentes de la aplicación, microservicios e integraciones que una organización tiene internamente.

En retrospectiva, todo esto puede sonar obvio, especialmente a la luz de la propensión a publicar alarmismo en torno a la seguridad. Pero a veces se necesita un mayor escrutinio de lo que se nos presenta para considerar realmente el impacto. El mantra general ha sido que los nuevos modelos de IA van a inclinar drásticamente la balanza, lo cual es cierto hasta cierto punto; la IA proporcionará velocidad, amplitud y capacidad a los atacantes, y habrá un impacto perjudicial para quienes defienden aplicaciones, sistemas e infraestructura.

Pero el matiz es que la eficacia depende en gran medida del contexto, y ese contexto está distribuido de manera desigual. Afortunadamente para nosotros, está ponderado a favor del defensor. Así, mientras que los atacantes pueden beneficiarse primero de los modelos de IA de vanguardia emergentes como Mythos y Capybara, los defensores ya tienen la ventaja del conocimiento profundo y estructural de cómo funciona realmente su código. La IA está haciendo que el contexto de seguridad de las aplicaciones sea más valioso que nunca. La cuestión es si los defensores utilizarán la ventaja que ya poseen. 

Consulte la lista de verificación Mythos-Ready de Aikido para aprender a aplicar la ventaja de los defensores y prepararse para las amenazas de los modelos de IA de frontera emergentes.

Compartir:

https://www.aikido.dev/blog/anthropic-mythos-cybersecurity-risks-overblown

Suscríbete para recibir noticias

4.7/5
¿Cansado de los falsos positivos?

Prueba Aikido como otros 100k.
Empiece ahora
Obtenga un recorrido personalizado

Con la confianza de más de 100k equipos

Reservar ahora
Escanee su aplicación en busca de IDORs y rutas de ataque reales

Con la confianza de más de 100k equipos

Empezar a escanear
Vea cómo el pentesting de IA prueba su aplicación

Con la confianza de más de 100k equipos

Empezar a probar

Asegura tu plataforma ahora

Protege tu código, la nube y el entorno de ejecución en un único sistema central.
Encuentra y corrije vulnerabilidades de forma rápida y automática.

No se requiere tarjeta de crédito | Resultados del escaneo en 32 segundos.