No hace falta considerar a Mythos como el más grande y el más temible de todos.
No me malinterpretes. Dependiendo del criterio de referencia que se utilice, Mythos se encuentra entre los mejores modelos disponibles en la actualidad y, en general, es el que mejor razona. Pero no está a años luz del resto.
Y en lo que respecta a los casos de uso prácticos, aplicar un modelo genérico —ni siquiera uno de vanguardia— a un problema no ofrece los mejores resultados. Tampoco resulta escalable ni rentable. A la hora de detectar vulnerabilidades, el marco de trabajo utilizado para el modelo es más importante que los propios modelos.
En primer lugar, analizaremos por qué Mythos no es la solución ideal para todos los problemas y, a continuación, veremos cómo un buen conjunto de herramientas permite obtener resultados de alta calidad a gran escala.
Mythos es un poco exagerado
En primer lugar, veamos algunos datos. Mythos es un buen modelo, uno de los mejores modelos de IA hasta la fecha, y sigue obteniendo excelentes resultados en las pruebas de rendimiento. Mythos destaca en la creación de cadenas de exploits y en la generación de pruebas de concepto, por lo que, desde su lanzamiento, ha acumulado un extenso historial de descubrimiento de vulnerabilidades de día cero.
Sin embargo, aunque el temor y el entusiasmo estaban justificados, la reacción del mundo fue desproporcionadamente grande en comparación con las mejoras respecto a los modelos anteriores. Cada nuevo modelo de vanguardia que sale al mercado es siempre mejor que el anterior, pero solo en una pequeña medida.
Y, en este momento, otros modelos de vanguardia también se sitúan en su mayoría al mismo nivel, sobre todo desde que se lanzó GPT-5.5 en abril. El Instituto de Seguridad de la IA del Reino Unido lo situó en aproximadamente el mismo nivel de capacidad cibernética que Mythos. En la categoría más difícil de su conjunto de pruebas, GPT-5.5 alcanzó el 71,4 %, mientras que Mythos alcanzó el 68,6 %. Entre Mythos y GPT 5.5, uno supera al otro dependiendo de la tarea.
Mythos no es perfecto y, por sí solo, sigue sin ser la solución milagrosa para detectar todas las vulnerabilidades de seguridad. Por ejemplo, alguien ejecutó Mythos sobre el código fuente de la biblioteca cURL y envió los resultados por correo electrónico a su fundador y mantenedor, Daniel Stenberg. Mythos detectó cinco «vulnerabilidades de seguridad confirmadas». Pero después de que el equipo de Stenberg las revisara, descubrieron que tres eran falsos positivos, una era un error no relacionado con la seguridad y solo una era una vulnerabilidad real. Unos días más tarde, Steinberg recibió 17 vulnerabilidades de personas que utilizaban otras herramientas de IA. Dijo en LinkedIn: «Mythos ni siquiera está cerca del final de esta carrera», y en su blog sobre la experiencia escribió que cree que el bombo publicitario de Mythos es «principalmente marketing».
El arnés es más importante que el modelo
Ahora que los distintos modelos destacan en numerosas tareas y que los modelos de gama alta están igualándose en cuanto a prestaciones, la variable más importante a la hora de optimizar la detección de vulnerabilidades es el equipo de trabajo.
Un «harness» es la capa de coordinación que envuelve un modelo (o varios modelos). Incluye la lógica que determina qué agente se ejecuta y cuándo, qué contexto recibe, cómo se validan los resultados y cuándo se debe recurrir a un modelo más potente. Se trata de una combinación de código, diseño de flujos de trabajo y arquitectura de prompts, en la que el modelo no es más que uno de esos componentes.
Los «harnesses» permiten que los modelos de lenguaje grande (LLM) pasen de ser generales a estar altamente adaptados a un dominio y unas tareas concretos. Además, aprovechan el carácter no determinista de los LLM, lo que hace que obtengan resultados ligeramente diferentes cada vez. Con un «harness», varios agentes revisan un código fuente, partiendo de la base de que ningún agente detectará el 100 % de las vulnerabilidades (incluidos los agentes que se ejecutan en Mythos).
En el contexto de la investigación sobre vulnerabilidades, el estudioCloudflare ofrece un ejemplo de cómo suele ser una configuración sólida del entorno de pruebas:
- Una etapa de reconocimiento que lee el repositorio y crea una cola de tareas para todo lo que viene a continuación
- Una fase de búsqueda en la que muchos agentes trabajan en paralelo, cada uno de ellos buscando vulnerabilidades
- Una fase de validación en la que un agente independiente, utilizando una indicación diferente y sin capacidad para generar sus propios resultados, intenta refutar lo que ha encontrado el agente de búsqueda
- Una fase de rastreo que sigue los hallazgos confirmados en todo el repositorio para determinar si los datos introducidos por el atacante pueden llegar realmente al fallo desde fuera del sistema
- Lógica de deduplicación para agrupar los hallazgos que tienen la misma causa raíz
El diseño del harness tiene tal impacto que a menudo resulta más importante que la propia elección del modelo. Investigadores de la UCSB ejecutaron el mismo modelo Claude Opus 4.6 en las mismas tareas con diferentes harnesses y descubrieron que el mejor harness superó cuatro veces más pruebas que el peor. A modo de comparación, la diferencia entre modelos de vanguardia como Opus 4.6 y GPT-5.4 en pruebas de rendimiento de codificación estándar es de solo un punto porcentual aproximadamente. Eso significa que los equipos que se obsesionan con qué modelo utilizar están sobreoptimizando la variable equivocada.
Niels Provos demostró el mismo concepto desde otra perspectiva. Creó un marco de pruebas que detectó una vulnerabilidad de 18 años de antigüedad en una biblioteca muy utilizada; a continuación, sustituyó el modelo por el GLM 5.1 de peso abierto y obtuvo resultados comparables. Demostró que un marco de pruebas sólido puede convertir el modelo en un componente intercambiable, en lugar de en el motor principal.
La investigación del equipo de seguridad de Mozilla explica por qué invertir en el diseño de harnesses resulta rentable a largo plazo. Una vez que su proceso de desarrollo de harnesses se consolidó, cada nuevo modelo que incorporaban mejoraba de inmediato la detección de errores, la generación de pruebas de concepto y el análisis de impacto, sin necesidad de reestructurar nada. Cuando Mythos estuvo disponible, pudieron integrarlo y beneficiarse de él de inmediato. Si se diseña bien el harness, el avance de los modelos se convierte en algo que se aprovecha de forma natural, en lugar de tener que esforzarse por adoptarlo.
El dinero manda
Otro problema de usar Mythos para todo es de carácter económico. Los modelos más potentes siempre ofrecen un mejor rendimiento, pero también son mucho más caros.
Ejecutar Mythos una sola vez cuesta dinero real, unas decenas de miles de dólares, para realizar un único análisis exhaustivo de un repositorio en busca de lo que podrían ser unas pocas vulnerabilidades. Si ejecutas Opus 4.6, o incluso GPT-5.4 nano, diez veces por el mismo coste que ejecutar Mythos una sola vez, normalmente encontrarás más. El coste no se corresponde directamente con la capacidad. Por ejemplo, tanto las entradas como las salidas de GPT 5.4 cuestan la mitad que las de GPT 5.5, pero el primero no tiene ni la mitad de la capacidad de razonamiento del segundo. Internamente, hemos descubierto que ocho agentes GPT-5.4-mini superan a un agente GPT-5.5 en algunos casos, y su coste es prácticamente el mismo. Los modelos más económicos te permiten convertir el número de agentes en una ventaja.

El modelo más pequeño suele generar más falsos positivos que un modelo Frontier, ya que, efectivamente, es menos preciso. Pero en este caso concreto, la cantidad es tan importante como la calidad, ya que lo que se busca es detectar el mayor número posible de vulnerabilidades. Aquí es donde los harnesses pueden ayudar a filtrar el ruido superfluo, donde otros agentes pueden verificar las cadenas de explotación y depurar el resultado, y resulta mucho más económico que ejecutar Mythos y modelos Frontier para detectarlo todo.
¿Qué van a utilizar realmente los ciberdelincuentes? No será Mythos. Para empezar, no lo tienen. Pero querrán utilizar cualquier cosa que funcione de forma económica, repetida y a gran escala, y no van a hacer cola. Los modelos de código abierto con interfaces decentes funcionan bien, y probablemente eso es lo que están haciendo ahora mismo.
Y para las organizaciones, ¿qué es sostenible? Sin duda, ejecutar un modelo de vanguardia con cada cambio en el código no lo es. En cambio, sí lo es ejecutar una orquestación de varios niveles que utilice modelos económicos de forma habitual y los costosos con precisión… eso sí lo es.
No prestes atención a la modelo que está detrás de la cortina
Mythos fue un hito fascinante en nuestra trayectoria. Llamó la atención de todo el mundo sobre lo que los modelos son capaces de hacer hoy en día. Sin embargo, es posible llevar a cabo una detección autónoma de vulnerabilidades eficaz y de alta calidad mediante métodos alternativos y más económicos, sin limitarse a Mythos o al Proyecto Glasswing.
Los proveedores que se ciñen a un único modelo se ven obligados a perfeccionar ese modelo concreto. Las plataformas independientes del proveedor pueden elegir la herramienta adecuada para cada tarea. Un modelo más pequeño puede abarcar un amplio espectro y detectar candidatos, mientras que un modelo más potente puede profundizar en aquellos que parecen interesantes y requieren mayores capacidades de razonamiento. Para obtener los mejores resultados en AppSec pentesting de IA, es mejor dar prioridad a los sistemas con marcos sofisticados que utilicen los modelos adecuados, en lugar de preocuparse demasiado por contar con el modelo más sofisticado.

En Aikido, nos dimos cuenta desde el principio de que la cantidad, la coordinación y la libertad de elegir la herramienta adecuada para cada tarea son más importantes que perseguir lo que en cada momento se encuentra tras el muro de pago más alto. Como AppSec , consideramos que nuestra responsabilidad es crear la coordinación que permita que la capa de modelos siga evolucionando en segundo plano. Si quieres saber más sobre cómo nuestras pruebas de penetración pueden ayudarte a proteger tu aplicación, ponte en contacto con nosotros hoy mismo.
P.D.: También hemos elaborado una lista de verificación compatible con Mythos para ayudar a los equipos a prepararse ante las amenazas que plantea la IA autónoma (ya sea basada en Mythos o en múltiples modelos GPT 5.4 mini).

