Aikido

Cómo Aikido protege los agentes de pentesting de IA por diseño

Escrito por
Sooraj Shah

Ha oído hablar de toda la histeria en torno a los agentes de IA y todas las posibilidades aparentemente ilimitadas. Y si bien esas posibilidades son muy buenas, a usted solo le interesan las capacidades de IA agéntica que aborden directamente sus problemas reales.

Y luego, cuando piensa en todas las ganancias de productividad y los beneficios de ROI, se detiene y piensa: «vale, esto es genial, pero ¿qué pasa si estos agentes se salen de su alcance?» Esto es así independientemente de si está implementando sus propios agentes de IA internamente o beneficiándose de las capacidades de agentes de IA de un proveedor externo.

Y es una pregunta válida. Los agentes, al igual que otras capacidades de IA, necesitan restricciones. Sin ellas, pueden descontrolarse. Los agentes son curiosos por diseño. Como un niño pequeño, intentarán abrir cada puerta a su alcance. En muchos casos, necesita que exploren, pero también debe asegurarse de que las puertas que no deben abrirse estén físicamente cerradas. 

Cuando se trata de ciberseguridad, esto importa aún más: los requisitos mínimos de seguridad para los agentes de IA deben ser aún más estrictos. Para Aikido Attack, nuestra capacidad de pentesting de IA, hemos considerado cada capa para evitar que los agentes se salgan de su alcance. Esto cubre elementos como las pruebas accidentales en producción y la pérdida de control.

Salirse del alcance es uno de los temas clave sobre los que nos preguntan los líderes de seguridad e ingenieros, y es algo que consideramos al desarrollar nuestra plataforma desde el principio. Naturalmente, como empresa de ciberseguridad, queríamos hacerlo bien.

Vale la pena recordar que se espera que los agentes intenten rutas inesperadas o arriesgadas, pero que existen barreras de seguridad para contener ese comportamiento, no para evitarlo.

Aikido Attack e Infinite funcionan con un enfoque por capas, utilizando límites estrictos y límites flexibles. Aquí están los elementos clave que debe conocer:

Capa 1: Separación arquitectónica estricta: Plano de control vs. ejecución

El sistema de Aikido está diseñado con una separación estricta entre el sistema que planifica y evalúa los pentests (el plano de control) y el entorno que realmente ejecuta las acciones (el sandbox de ejecución aislado). 

Todo el razonamiento, la orquestación y el acceso a datos sensibles ocurren en el plano de control. La ejecución de herramientas, la automatización del navegador y las interacciones de red ocurren en un entorno separado.

La separación existe porque asumimos que la ejecución puede comportarse de forma inesperada y, por lo tanto, cualquier impacto debe ser contenido. Es por esta razón que el entorno de ejecución no tiene acceso a secretos de orquestación, infraestructura interna o sistemas del plano de control. 

Capa 2: Aplicación del alcance en tiempo de ejecución

Nunca se asume que la producción está dentro del alcance

Nuestro sistema nunca asume que la producción está dentro del alcance para ser atacada. Se espera que el pentesting se ejecute únicamente en entornos de staging y prueba. La producción debe configurarse explícitamente como dentro del alcance, e incluso entonces, esto sería revisado y reconocido antes de que se ejecute nada. 

Hemos visto cómo nuestras barreras de seguridad funcionan en la práctica. En un caso, un agente siguió un comportamiento de aplicación que lo habría llevado a la infraestructura de producción. El límite estricto que tenemos implementado bloqueó la solicitud en la capa de red. Sin embargo, pudimos ver que el agente lo intentó. Este intento bloqueado es una prueba de que nuestras barreras de seguridad funcionan. 

Solo se puede acceder a los dominios permitidos 

Nuestros agentes solo pueden interactuar con dominios configurados explícitamente. Si un dominio no está en la lista de permitidos, se bloquea a nivel de red. Esto es algo que puede configurar usted mismo, especificando qué dominios son atacables o accesibles. En pocas palabras, bloqueamos dominios por defecto para evitar que el agente interactúe con servidores con los que no debería interactuar.

Esto significa que no dependemos de prompts o humanos para la aplicación del alcance. Aikido lo aplica técnicamente nosotros mismos.

Se bloquea la desviación accidental del alcance

Volviendo a nuestra analogía del niño pequeño. Aunque la mayoría de los otros controles de seguridad significan que los agentes no se desviarán del alcance, hay un número limitado de agentes que, bueno, simplemente lo hacen. Especialmente cuando tienes 250 agentes ejecutándose al mismo tiempo. 

Un ejemplo clásico de esto es si un agente es redirigido a una aplicación externa a través de un enlace, asume que todavía está en la misma página, pero en realidad está en otro sitio web. Así que, de repente, está en X o Reddit, y asume que esto es parte del alcance. 

Por eso necesita controles estrictos para proteger a los agentes de, bueno, sí mismos. Como dice Phillippe Dourassov, Líder de Pentesting de IA en Aikido Security:

«Siempre habrá un cinco por ciento de agentes que no son del todo sensatos, y por eso nos aseguramos de lidiar con este cinco por ciento».

Capa 3: Inyección de prompts y exfiltración de datos 

Sabemos que la inyección de prompts es un riesgo clave en los sistemas de IA autónomos, por el cual un atacante inserta instrucciones maliciosas en el contenido que el agente lee. El agente interpreta esas instrucciones como una guía legítima y las sigue.

Eso podría significar contenido que insta a los agentes a enviar el código fuente o datos internos a un lugar donde no deberían estar. Esta vulnerabilidad surge de la exposición a contenido no confiable y de la posterior actuación sobre él. Aikido elimina ambas opciones.

En primer lugar, los agentes de Aikido no tienen acceso abierto a internet. Esto significa que los agentes no pueden realizar una búsqueda en Google para averiguar cómo funciona un tipo de tecnología, ni ir a Reddit y seguir instrucciones para hacer algo inseguro. El único contenido que procesan es el que existe dentro de la propia aplicación con ámbito definido. 

En segundo lugar, incluso si se implantaran instrucciones maliciosas dentro de la aplicación objetivo, los agentes no tienen permitido exfiltrar datos. Las restricciones a nivel de red impiden las conexiones salientes a destinos aleatorios, por lo que el agente no puede subir código fuente a Google Drive, ni publicar en un endpoint externo, ni enviar datos a un dominio controlado por un atacante.

Aplicamos esto en la capa de red interceptando y controlando el tráfico HTTP y DNS de los agentes, impidiendo que resuelvan o se comuniquen con dominios que no estén explícitamente aprobados.

Así, en el peor de los casos, si un modelo malinterpreta las instrucciones, seguirá siendo incapaz de enviar nada al exterior.

Un caso excepcional que vale la pena mencionar es si un cliente inyecta deliberadamente instrucciones maliciosas en su propio entorno (¡aunque no estamos seguros de por qué sería así?!), el agente bien podría procesarlo. Pero incluso entonces, el único impacto será en la propia prueba del cliente. No hay riesgo entre tenants, exposición de la infraestructura o fuga de datos más allá de lo que ya controlan. 

Capa 4: Sandboxes aislados para cada agente

Cada uno de nuestros agentes tiene su propio pequeño sandbox aislado (piense: un niño pequeño en un parque infantil). Esto significa que están separados tanto de la infraestructura interna de Aikido como de otros agentes que se ejecutan al mismo tiempo. Esto implica que están separados del acceso a la red, infraestructura y bases de datos de Aikido, y no pueden interferir ni influir en otras sesiones activas.

Si algo se comporta de forma inesperada durante una prueba, el impacto se contiene en ese único sandbox, evitando tanto el impacto entre agentes como la exposición entre tenants. 

Capa 5: Salvaguardas operativas

Todas las solicitudes tienen límite de tasa y son conscientes de la carga, lo que garantiza que las pruebas no saturen los sistemas objetivo ni desencadenen una avalancha de alertas.

Además, las pruebas pueden pausarse o terminarse inmediatamente en cualquier momento. Los clientes pueden ver lo que los agentes están haciendo en tiempo real. Cada solicitud y acción es visible. Esto significa que los equipos pueden intervenir si lo consideran necesario.

Validación de la configuración

Los errores de configuración son más probables que el comportamiento malicioso. Por esta razón, antes de que comiencen las pruebas, Aikido utiliza comprobaciones previas para validar la autenticación y la accesibilidad. Si algo parece mal configurado o se asemeja a un entorno de producción, se emiten advertencias de forma temprana. Esto significa que las salvaguardas están diseñadas para detectar errores humanos antes de que comience la ejecución, en lugar de depender de controles en tiempo de ejecución para corregir errores de configuración evitables.

Límites flexibles

Nuestro enfoque por capas significa que también tenemos límites flexibles. Aquí es donde no necesitaría que un dominio fuera accesible para que los agentes lo usen. 

Por ejemplo, si tuviera un portal de autenticación, entonces dentro de ese portal, es posible que desee que los agentes utilicen la autenticación para iniciar sesión en la aplicación, pero no quiere que los agentes ataquen el propio portal.

El límite flexible significa que los agentes aún pueden alcanzar el portal de autenticación, pero reciben instrucciones específicas de no atacarlo. 

Cómo se aplica el alcance: Pentesting humano vs. pentesting de IA

En un pentest tradicional, el alcance se aplica a través de documentación, contratos y juicio profesional. Los testers son informados sobre qué entornos están dentro del alcance. Esto funciona bien en la práctica, pero mantenerse dentro de los límites depende de la disciplina y experiencia del tester. 

Por ejemplo, si un tester sigue una redirección a un entorno incorrecto o identifica erróneamente un sistema, el problema se descubre típicamente más tarde a través de registros o revisión.

Con el pentesting de IA, el alcance se aplica a través de controles técnicos. Si un dominio no está en la lista de permitidos, la conexión se bloquea. Si la producción no se selecciona explícitamente, no es accesible, y si una redirección lleva fuera del alcance, la solicitud falla automáticamente. 

Ambos enfoques son efectivos. La ventaja de la aplicación técnica es que reduce la dependencia de la documentación y la interpretación. 

Para beneficiarse del pentesting de IA, que ya ha mostrado mejores resultados que el pentesting manual en términos de encontrar problemas críticos y de alta severidad, pruebe Aikido Attack ahora

Compartir:

https://www.aikido.dev/blog/ai-pentesting-agent-security

Empieza hoy, gratis.

Empieza gratis
Sin tarjeta

Suscríbase para recibir noticias sobre amenazas.

4.7/5
¿Cansado de los falsos positivos?

Prueba Aikido como otros 100k.
Empiece ahora
Obtenga un recorrido personalizado

Con la confianza de más de 100k equipos

Reservar ahora
Escanee su aplicación en busca de IDORs y rutas de ataque reales

Con la confianza de más de 100k equipos

Empezar a escanear
Vea cómo el pentesting de IA prueba su aplicación

Con la confianza de más de 100k equipos

Empezar a probar

Asegura tu plataforma ahora

Protege tu código, la nube y el entorno de ejecución en un único sistema central.
Encuentra y corrije vulnerabilidades de forma rápida y automática.

No se requiere tarjeta de crédito | Resultados del escaneo en 32 segundos.