Deja paso, Mythos. Aquí llega cualquier modelo con un buen harness.

Blog

Noticias

Deja paso, Mythos. Aquí llega... prácticamente cualquier otro modelo con un buen harness

Escrito por

Dania Durnas

Publicado el:

1 de junio de 2026

Mythos no necesita ser tratado como el más potente y temible.

No me malinterpretes. Dependiendo del benchmark con el que se evalúe, Mythos se encuentra entre los modelos más destacados disponibles hoy en día y, en general, es el mejor en razonamiento. Pero no aventaja con creces al resto.

Y cuando se trata de casos de uso prácticos, aplicar un modelo general, incluso uno de vanguardia, a un problema no produce los mejores resultados. Tampoco es escalable ni rentable. A la hora de encontrar vulnerabilidades, el 'harness' utilizado para un modelo importa más que los propios modelos. ¿Y Fable 5, la versión pública de Mythos? Ni siquiera abordará temas de ciberseguridad.

Primero analizaremos por qué Mythos no es el modelo para resolver todos los problemas, y luego cómo un buen harness produce resultados de alta calidad a escala.

Mythos es un poco exagerado

Primero, veamos algunos hechos. Mythos es bueno, uno de los mejores modelos de IA hasta la fecha, y sigue obteniendo un alto rendimiento en los benchmarks. Mythos destaca en la construcción de cadenas de exploits y la generación de pruebas de concepto, por lo que, desde su lanzamiento, ha acumulado un largo historial de descubrimiento de vulnerabilidades de día cero.

Sin embargo, aunque cierto temor y entusiasmo estaban justificados, la respuesta mundial fue desproporcionadamente grande en relación con su mejora respecto a modelos anteriores. Cada nuevo modelo de frontera lanzado al mercado es siempre mejor que el anterior, pero en una pequeña proporción.

Y en este punto, otros modelos de frontera también están en su mayoría a la par, especialmente desde que GPT-5.5 salió en abril. El AI Security Institute del Reino Unido lo evaluó en un nivel de capacidad cibernética aproximadamente igual al de Mythos. En la categoría más difícil de su conjunto de evaluación, GPT-5.5 alcanzó el 71.4%, mientras que Mythos alcanzó el 68.6%. Entre Mythos y GPT 5.5, uno supera al otro dependiendo de la tarea.

Mythos no es perfecto y, por sí solo, no es la panacea para encontrar todas las vulnerabilidades de seguridad. Por ejemplo, alguien ejecutó Mythos contra el código base de la biblioteca cURL y envió los resultados por correo electrónico a su fundador y mantenedor, Daniel Stenberg. Mythos detectó cinco «vulnerabilidades de seguridad confirmadas». Pero después de que el equipo de Stenberg las revisara, descubrieron que tres eran falsos positivos, una era un error no relacionado con la seguridad y solo una era una vulnerabilidad real. Unos días después, Stenberg recibió 17 vulnerabilidades de personas que utilizaban otras herramientas de IA. Él dijo en LinkedIn: «Mythos no está ni cerca del final de esta carrera», y en su blog sobre la experiencia escribió que cree que el bombo de Mythos es «principalmente marketing».

Fable 5 fue lanzado recientemente por Anthropic, que es Mythos 5 con salvaguardias. Estas salvaguardias hacen que el modelo se detenga si encuentra alguna solicitud relacionada con ciberseguridad o biología. Por lo tanto, no puede ser evaluado ni aprovechado en absoluto para la detección de vulnerabilidades.

El harness importa más que el modelo

Con diferentes modelos destacando ahora en muchas tareas diferentes y los modelos de primer nivel convergiendo en capacidades, la mayor variable en la optimización del descubrimiento de vulnerabilidades es el harness.

Un harness es la capa de orquestación que envuelve un modelo (o múltiples modelos). Esto incluye la lógica que decide qué agente se ejecuta y cuándo, qué contexto recibe, cómo se validan los hallazgos y cuándo escalar a un modelo más potente. Es código, diseño de flujo de trabajo y arquitectura de prompts trabajando juntos, con el modelo sirviendo como uno más de esos componentes.

Los harnesses enfocan los LLM para que pasen de ser generales a ser altamente adecuados para un dominio y tareas determinados. También aprovechan el no determinismo en los LLM, lo que hace que encuentren resultados ligeramente diferentes cada vez. Con un harness, múltiples agentes revisan un código base, con la expectativa de que ningún agente encontrará el 100% de las vulnerabilidades (incluidos los agentes que se ejecutan en Mythos).

En el contexto de la investigación de vulnerabilidades, la investigación de Cloudflare describe un ejemplo de cómo suele ser una configuración de harness sólida:

Una etapa de reconocimiento que lee el repositorio y crea una cola de tareas para todo lo posterior.
Una etapa de búsqueda donde muchos agentes se ejecutan en paralelo, cada uno buscando vulnerabilidades.
Una etapa de validación donde un agente independiente, utilizando un prompt diferente y sin capacidad para generar sus propios hallazgos, intenta refutar lo que encontró el agente de búsqueda.
Una etapa de rastreo que sigue los hallazgos confirmados a través del repositorio para determinar si una entrada controlada por el atacante puede realmente alcanzar el bug desde fuera del sistema.
Lógica de deduplicación para consolidar los hallazgos que tienen la misma causa raíz.

El diseño del harness es tan impactante que a menudo importa más que la elección del modelo en sí. Investigadores de la UCSB ejecutaron el mismo Claude Opus 4.6 en las mismas tareas con diferentes harnesses y descubrieron que el mejor harness superó cuatro veces más pruebas que el peor harness. En comparación, la diferencia entre modelos de frontera como Opus 4.6 y GPT-5.4 en benchmarks de codificación estándar es de solo aproximadamente un punto porcentual. Esto significa que los equipos que se obsesionan con qué modelo usar están sobreoptimizando la variable equivocada.

Niels Provos demostró el mismo concepto desde la otra dirección. Construyó un harness que encontró una vulnerabilidad de 18 años en una biblioteca popular, luego introdujo el GLM 5.1 de peso abierto y obtuvo resultados comparables. Demostró que un harness robusto puede convertir el modelo en un componente intercambiable, en lugar del motor principal.

La investigación del equipo de seguridad de Mozilla explica por qué invertir en el diseño de un harness da sus frutos con el tiempo. Una vez que su pipeline de harness era sólido, cada nuevo modelo que incorporaron mejoró inmediatamente la detección de errores, la generación de pruebas de concepto y el análisis de impacto sin ninguna reestructuración. Cuando Mythos estuvo disponible para ellos, pudieron integrarlo y beneficiarse inmediatamente. Construye bien el harness, y el progreso del modelo se convierte en algo que absorbes gratis en lugar de luchar por adoptar.

El dinero habla

Otro problema de usar Mythos para todo es económico. Los modelos más grandes siempre son más eficientes, pero también son mucho más caros.

Ejecutar Mythos una vez cuesta dinero de verdad, alrededor de decenas de miles de dólares, para hacer un único escaneo exhaustivo de un repositorio para lo que podrían ser unas pocas vulnerabilidades. Ejecuta Opus 4.6, o incluso GPT-5.4 nano, diez veces por el mismo coste que ejecutar Mythos una vez, y generalmente encuentras más. El coste no escala 1 a 1 con la capacidad. Por ejemplo, tanto las entradas como las salidas para GPT 5.4 cuestan la mitad que las de GPT 5.5, pero el primero no tiene la mitad de la capacidad de razonamiento del segundo. Internamente, descubrimos que ocho agentes GPT-5.4-mini superan a un agente GPT-5.5 en algunos casos, y tienen aproximadamente el mismo coste. Los modelos más baratos te permiten convertir el número de agentes en una ventaja.

Un hombre sostiene un billete de dólar en la mano y baila con él. Luego dispara el dólar de su mano. Una parodia de lanzar muchos billetes.

El modelo más pequeño generalmente producirá más falsos positivos que un modelo de frontera, ya que es, de hecho, menos preciso. Pero en este caso raro, la cantidad importa tanto como la calidad, ya que quieres asegurarte de capturar tantas vulnerabilidades como sea posible. Aquí es donde los harnesses pueden ayudar a filtrar el ruido adicional, donde otros agentes pueden verificar las cadenas de explotación y limpiar, y es mucho más económico que ejecutar Mythos y modelos de frontera para encontrarlo todo.

Para los actores de amenazas, ¿qué van a usar realmente? No Mythos. Para empezar, no lo tienen. Y Fable 5 fue debilitado para evitar que este mismo grupo obtuviera acceso. No, los atacantes querrán usar lo que funcione de forma barata, repetida y a escala, y no van a esperar en la cola. Los modelos de peso abierto con arneses decentes funcionan bien, y eso es probablemente lo que están haciendo ahora mismo.

Y para las organizaciones, ¿qué es sostenible? Ejecutar un modelo de frontera en cada cambio de código ciertamente no lo es. Ejecutar una orquestación de múltiples niveles que utilice modelos baratos regularmente y modelos caros con precisión... eso sí lo es.

No prestes atención al modelo detrás de la cortina

Mythos fue un momento fascinante en nuestra cronología. Captó la atención de todos sobre lo que los modelos pueden hacer ahora. Pero el descubrimiento autónomo de vulnerabilidades de alta calidad y capaz es accesible a través de medios alternativos y más baratos que limitarse a Mythos o Project Glasswing.

Los proveedores atados a un único modelo tienen que perfeccionar ese modelo. Las plataformas agnósticas de proveedor pueden elegir la herramienta adecuada para el trabajo adecuado. Un modelo más pequeño puede abarcar un amplio espectro y detectar candidatos, mientras que un modelo más potente puede profundizar en aquellos que parecen interesantes y requieren mayores capacidades de razonamiento. Para obtener los mejores resultados en AppSec y pentesting de IA, quieres priorizar sistemas con harnesses sofisticados que utilicen los modelos adecuados, en lugar de preocuparte demasiado por tener el modelo más sofisticado.

El Mago de Oz: Un hombre está detrás de una cortina verde trabajando con un gran artilugio. El perro Toto retira la cortina para revelar al hombre.

En Aikido, descubrimos pronto que la cantidad, la orquestación y la libertad de elegir la herramienta adecuada para el trabajo superan la persecución de lo que esté actualmente detrás del muro de pago más alto. Como proveedor de AppSec, vemos nuestra responsabilidad en construir la orquestación que permita que la capa del modelo siga evolucionando por debajo. Si quieres saber más sobre cómo nuestro pentesting puede ayudarte a proteger tu aplicación, habla con nosotros hoy.

P.D. También hemos escrito una lista de verificación Mythos-ready para ayudar a los equipos a prepararse para las amenazas de la IA agéntica (ya sea impulsada por Mythos o por muchos GPT 5.4 minis).

Última actualización el:

18 de junio de 2026

Enlace de texto

Suscríbete para recibir noticias

4.7/5

¿Cansado de los falsos positivos? 
Prueba Aikido como otros 100k.

Empiece ahora

Obtenga un recorrido personalizado

Con la confianza de más de 100k equipos

Reservar ahora

Escanee su aplicación en busca de IDORs y rutas de ataque reales

Con la confianza de más de 100k equipos

Empezar a escanear

Vea cómo el pentesting de IA prueba su aplicación

Con la confianza de más de 100k equipos

Empezar a probar

Empiece ahora

Publicaciones similares

Ver todo

Julio 13, 2026

•

Noticias

Cómo mantener los estándares de calidad del código con el código generado por IA y la programación intuitiva

Vibe Coding implementa las funcionalidades rápidamente y deja atrás la deuda de revisión. Descubre cómo las comprobaciones de calidad del código, basadas en reglas y comparadas con estándares de referencia, ofrecen a los equipos una respuesta coherente en todas las solicitudes de incorporación de cambios y repositorios.

Calidad del código

Vibe Coding

Julio 1, 2026

•

Noticias

Y otra más. GitHub lanza una función de revocación de credenciales de emergencia

La revocación de credenciales mediante «Break-glass» ya está disponible en GitHub Enterprise. Los casos de Trivy Microsoft con tareas duraderas (durabletasks) demuestran por qué era necesaria una revocación rápida y completa.

GitHub Security

Junio 26, 2026

•

Noticias

npm ahora congela las cuentas de alto impacto después de cambios de cuenta arriesgados

Un vistazo a la nueva congelación de cuentas de 72 horas de npm: qué la activa, qué bloquea y cómo funciona junto con la publicación de confianza y por fases.

NPM

open source

Asegura tu plataforma ahora

Protege tu código, la nube y el entorno de ejecución en un único sistema central.
Encuentra y corrije vulnerabilidades de forma rápida y automática.

Iniciar escaneo

Solicitar una demo

No se requiere tarjeta de crédito | Resultados del escaneo en 32 segundos.