Has oído hablar de toda la histeria que rodea a los agentes de IA y de todas sus posibilidades aparentemente ilimitadas. Y aunque esas posibilidades están muy bien, lo único que realmente te interesa son las capacidades de la IA agente que abordan tus problemas reales de forma directa.
Y luego, cuando piensas en todas las ganancias de productividad y los beneficios del retorno de la inversión, te detienes y piensas:«Está bien, esto es genial, pero ¿qué pasa si estos agentes se salen de su ámbito de actuación?». Esto es independiente de si estás implementando tus propios agentes de IA internamente o si te estás beneficiando de las capacidades de los agentes de IA de un proveedor externo.
Y es una pregunta válida. Los agentes, al igual que otras capacidades de IA, necesitan restricciones. Sin ellas, pueden descontrolarse . Los agentes son curiosos por naturaleza. Al igual que un niño pequeño, probarán todas las puertas a las que puedan llegar. En muchos casos, es necesario que exploren, pero también hay que asegurarse de que las puertas que no deben abrirse estén físicamente cerradas con llave.
En lo que respecta a la ciberseguridad, esto es aún más importante: los requisitos mínimos de seguridad para los agentes de IA deben ser aún más estrictos. Para Aikido Attack, nuestro pentesting de IA , hemos tenido en cuenta todas las capas para evitar que los agentes se salgan del ámbito previsto. Esto abarca elementos como la comprobación accidental de la producción y la pérdida de control.
Salirse del ámbito de aplicación es uno de los temas clave sobre los que nos preguntan los responsables de seguridad y los ingenieros, y es algo que tuvimos en cuenta al desarrollar nuestra plataforma desde el principio. Naturalmente, como empresa de ciberseguridad, queríamos hacerlo bien.
Vale la pena recordar que se espera que los agentes intenten caminos inesperados o arriesgados, pero que existen barreras de protección para contener ese comportamiento, no para impedirlo.
El ataque de aikido y el trabajo infinito se basan en un enfoque por capas, utilizando tanto límites rígidos como límites flexibles. Estos son los elementos clave que debes conocer:
Capa 1: Separación arquitectónica rígida: plano de control frente a ejecución.

El sistema de Aikido está diseñado con una separación estricta entre el sistema que planifica y evalúa las pruebas de penetración (el plano de control) y el entorno que realmente ejecuta las acciones (el entorno de ejecución aislado).
Todo el razonamiento, la orquestación y el acceso a datos confidenciales se producen en el plano de control. La ejecución de herramientas, la automatización del navegador y las interacciones de red se producen en un entorno independiente.
La separación existe porque asumimos que la ejecución puede comportarse de forma incorrecta y, por lo tanto, cualquier impacto debe contenerse. Por este motivo, el entorno de ejecución no tiene acceso a los secretos de orquestación, la infraestructura interna ni los sistemas del plano de control.
Capa 2: Aplicación del ámbito de tiempo de ejecución
La producción nunca se asume como parte del alcance.
Nuestro sistema nunca asume que la producción está dentro del ámbito de los ataques. Se espera que las pruebas de penetración se ejecuten únicamente en entornos de prueba y de ensayo. La producción debe configurarse explícitamente como dentro del ámbito, e incluso entonces, esto se revisaría y confirmaría antes de ejecutar nada.
Hemos visto cómo funcionan nuestras barreras de seguridad en la práctica. En un caso, un agente siguió un comportamiento de aplicación que lo habría llevado a la infraestructura de producción. El límite estricto que tenemos establecido bloqueó la solicitud en la capa de red. Sin embargo, pudimos ver que el agente lo intentó. Este intento bloqueado es una prueba de que nuestras barreras de seguridad funcionan.
Solo se puede acceder a los dominios que están permitidos.
Nuestros agentes solo pueden interactuar con dominios configurados explícitamente. Si un dominio no está incluido en la lista de permitidos, se bloquea a nivel de red. Esto es algo que usted mismo puede configurar, especificando qué dominios son vulnerables o accesibles. En pocas palabras, bloqueamos los dominios de forma predeterminada para evitar que el agente interactúe con servidores con los que no debe interactuar.
Esto significa que no dependemos de indicaciones ni de personas para hacer cumplir el alcance. Aikido lo hace cumplir técnicamente por sí mismo.
Se bloquea la deriva accidental del alcance.
Volvamos a nuestra analogía con los niños pequeños. Aunque la mayoría de los demás controles de seguridad garantizan que los agentes no se desvíen del ámbito de aplicación, hay un número limitado de agentes que, bueno, simplemente lo hacen. Especialmente cuando se tienen 250 agentes funcionando al mismo tiempo.
Un ejemplo clásico de esto es cuando un agente es redirigido a una aplicación externa a través de un enlace y asume que sigue estando en la misma página, pero en realidad se encuentra en otro sitio web. De repente, se encuentra en X o Reddit y asume que eso forma parte del ámbito de actuación.
Por eso es necesario establecer controles estrictos para proteger a los agentes de sí mismos. Como dice Phillippe Dourassov, responsable de pruebas de penetración de IA en Aikido Security:
«Habrá un cinco por ciento de agentes que no siempre serán sensatos, y por eso nos aseguramos de ocuparnos de ese cinco por ciento».
Capa 3: Inyección de comandos y exfiltración de datos
Sabemos que la inyección rápida es un riesgo clave en los sistemas de IA autónomos, por el que un atacante inserta instrucciones maliciosas en el contenido que lee el agente. El agente interpreta esas instrucciones como una guía legítima y las sigue.
Esto podría significar contenido que incita a los agentes a enviar el código fuente o datos internos a algún lugar donde no deberían estar. Esta vulnerabilidad proviene de estar expuesto a contenido no confiable y luego actuar en consecuencia. Aikido elimina ambas opciones.
En primer lugar, los agentes de Aikido no tienen acceso abierto a Internet. Esto significa que los agentes no pueden realizar búsquedas en Google para averiguar cómo funciona un tipo de tecnología, ni entrar en Reddit y seguir instrucciones para hacer algo inseguro. El único contenido que procesan es el que existe dentro de la propia aplicación.
En segundo lugar, incluso si de alguna manera se introdujeran instrucciones maliciosas en la aplicación objetivo, los agentes seguirían sin tener permiso para extraer datos. Las restricciones a nivel de red impiden las conexiones salientes a destinos aleatorios, por lo que el agente no puede cargar código fuente en Google Drive, publicar en un punto final externo ni enviar datos a un dominio controlado por el atacante.
Aplicamos esta medida en la capa de red interceptando y controlando tanto el tráfico HTTP como el DNS de los agentes, lo que les impide resolver o comunicarse con dominios que no estén explícitamente aprobados.
Por lo tanto, en el peor de los casos, si un modelo malinterpreta las instrucciones, seguirá sin poder enviar nada al exterior.
Un caso extremo que vale la pena mencionar es si un cliente inyecta deliberadamente instrucciones maliciosas en su propio entorno (¡aunque no estamos seguros de por qué sería así!), el agente podría procesarlas. Pero incluso en ese caso, el único impacto sería en la propia prueba del cliente. No hay riesgo entre clientes, exposición de la infraestructura ni fuga de datos más allá de lo que ya controlan.
Capa 4: Entornos aislados para cada agente
Cada uno de nuestros agentes tiene su propio entorno aislado (como un niño pequeño en un parque infantil). Eso significa que están separados tanto de la infraestructura interna de Aikido como de otros agentes que se ejecutan al mismo tiempo. Esto significa que están separados del acceso a la red, la infraestructura y las bases de datos de Aikido, y no pueden interferir ni influir en otras sesiones activas.
Si algo se comporta de forma inesperada durante una prueba, el impacto queda limitado a ese único entorno aislado, lo que evita tanto el impacto entre agentes como la exposición entre inquilinos.
Capa 5: Salvaguardias operativas
Todas las solicitudes tienen un límite de velocidad y son sensibles a la carga, lo que garantiza que las pruebas no sobrecarguen los sistemas de destino ni activen una avalancha de alertas.
Además, las pruebas se pueden pausar o finalizar inmediatamente en cualquier momento. Los clientes pueden ver lo que hacen los agentes en tiempo real. Todas las solicitudes y acciones son visibles. Esto significa que los equipos pueden intervenir si lo consideran necesario.
Validación de la configuración
Los errores de configuración son más probables que los comportamientos maliciosos. Por este motivo, antes de comenzar las pruebas, Aikido utiliza comprobaciones previas para validar la autenticación y la accesibilidad. Si alguien parece estar mal configurado o se asemeja a un entorno de producción, se muestran advertencias de forma temprana. Esto significa que las medidas de seguridad están diseñadas para detectar los errores humanos antes de que comience la ejecución, en lugar de depender de controles en tiempo de ejecución para corregir errores de configuración evitables.
Límites flexibles
Nuestro enfoque por capas implica que también tenemos límites flexibles. Esto significa que no es necesario que un dominio sea accesible para que los agentes puedan utilizarlo.
Por ejemplo, si tuviera un portal de autenticación, dentro de ese portal, es posible que desee que los agentes utilicen la autenticación para iniciar sesión en la aplicación, pero no desea que los agentes ataquen el portal en sí.
El límite flexible significa que los agentes aún pueden acceder al portal de autenticación, pero se les indica específicamente que no lo ataquen.
Cómo se aplica el alcance: humanos frente a pentesting de IA
En una prueba de penetración tradicional, el alcance se establece mediante documentación, contratos y criterio profesional. Se informa a los evaluadores sobre los entornos que se incluyen en el alcance. Esto funciona bien en la práctica, pero mantenerse dentro de los límites depende de la disciplina y la experiencia del evaluador.
Por ejemplo, si un evaluador sigue una redirección al entorno incorrecto o identifica erróneamente un sistema, el problema suele descubrirse más tarde a través de los registros o la revisión.
Con pentesting de IA, el alcance se aplica mediante controles técnicos. Si un dominio no está incluido en la lista de permitidos, se bloquea la conexión. Si la producción no se selecciona explícitamente, no es accesible, y si una redirección conduce fuera del alcance, la solicitud falla automáticamente.
Ambos enfoques son eficaces. La ventaja de la aplicación técnica es que reduce la dependencia de la documentación y la interpretación.
Para beneficiarse de pentesting de IA, que ya han demostrado mejores resultados que las pruebas de penetración manuales en términos de detección de problemas críticos y de alta gravedad, pruebe Aikido Attack ahora mismo .

