Aikido

Pentesting de IA: Requisitos mínimos de seguridad para pruebas de seguridad

Escrito por
Sooraj Shah

¿Cuándo es realmente seguro ejecutar el pentesting de IA contra sistemas reales?

Si le preocupa el pentesting de IA, no está desfasado. Probablemente esté adelantado.

Las pruebas de seguridad son una de las primeras áreas donde la IA ya no solo ayuda a los humanos, sino que actúa por sí misma. Los sistemas modernos de pentesting de IA exploran aplicaciones de forma independiente, ejecutan acciones reales y se adaptan en función de lo que observan.

Esto es potente. También plantea preguntas muy reales sobre el control, la seguridad y la confianza.

Esta publicación no trata sobre si el pentesting de IA funciona. Trata sobre cuándo es realmente seguro ejecutarlo.

Por qué el escepticismo sobre el pentesting de IA es razonable

La mayoría de los líderes de seguridad con los que hablamos no están en contra de la IA. Son cautelosos, y por buenas razones.

Les preocupan cosas como:

  • Perder el control sobre lo que se está probando
  • Agentes interactuando con sistemas de producción por accidente
  • El ruido que enmascara los problemas reales
  • Datos sensibles siendo manejados de formas poco claras
  • Herramientas que se comportan como cajas negras que no pueden explicar internamente

Esas preocupaciones son válidas, especialmente porque gran parte de lo que hoy se etiqueta como “pentesting de IA” no ayuda a generar confianza en este aspecto.

Algunas herramientas son DAST con un LLM añadido. Otras son sistemas basados en listas de verificación donde los agentes prueban un problema tras otro. Ambos enfoques son limitados, y ninguno le prepara para lo que ocurre cuando los sistemas actúan de forma autónoma.

El verdadero pentesting de IA es diferente, y esa diferencia cambia el listón de seguridad.

Qué cambia con el verdadero pentesting de IA

A diferencia de los escáneres o las herramientas que siguen instrucciones, los verdaderos sistemas de pentesting de IA:

  • Toman decisiones autónomas
  • Ejecutar herramientas y comandos reales
  • Interactuar con aplicaciones y APIs en vivo
  • Adaptar su comportamiento en función de la retroalimentación
  • A menudo se ejecutan a escala con muchos agentes en paralelo

Una vez que se alcanza este nivel de autonomía, la intención y las instrucciones ya no son suficientes. La seguridad debe aplicarse técnicamente, incluso cuando el sistema se comporta de formas inesperadas.

Esto lleva a una pregunta sencilla.

¿Qué requiere realmente un pentesting de IA “seguro”?

Basándose en la operación de sistemas de pentesting de IA en la práctica, empieza a surgir una línea de base clara. Estos son los requisitos que creemos que deberían existir antes de que el pentesting de IA se considere seguro para su ejecución.

Esta lista es intencionadamente concreta. Cada requisito describe algo que puede ser verificado, aplicado o auditado, no un principio o una buena práctica.

1. Validación de la propiedad y prevención de abusos

Un sistema de pentesting de IA solo debe poder utilizarse contra activos que el operador posea o para los que esté explícitamente autorizado a realizar pruebas.

Como mínimo:

  • La propiedad debe verificarse antes de que comiencen las pruebas
  • La autorización debe aplicarse técnicamente, no mediante declaraciones del usuario

Sin esto, una plataforma de pentesting de IA se convierte en una herramienta de ataque general. La seguridad comienza antes de que se envíe la primera solicitud.

2. Aplicación del alcance a nivel de red

Los agentes se desviarán con el tiempo. Esto es un comportamiento esperado, no un error.

Debido a ello:

  • Cada solicitud saliente debe ser inspeccionada programáticamente
  • Los objetivos deben estar explícitamente permitidos
  • Todos los destinos no autorizados deben ser bloqueados por defecto

La aplicación del alcance no puede depender de indicaciones o instrucciones. Debe ocurrir a nivel de red, en cada solicitud.

Ejemplo:

  • Los agentes instruidos para probar un entorno de staging a veces intentarán seguir enlaces a producción. Sin la aplicación de la red, ese error llega al objetivo. Con ella, la solicitud se bloquea antes de salir del sistema.

3. Aislamiento entre el razonamiento y la ejecución

Los sistemas de pentesting agénticos ejecutan herramientas reales como comandos bash o scripts de Python. Esto introduce un riesgo de ejecución.

Los requisitos mínimos de seguridad incluyen:

  • Separación estricta entre el razonamiento del agente y la ejecución de herramientas
  • Entornos de ejecución en sandbox
  • Aislamiento entre agentes y entre clientes

Si un agente se comporta de forma incorrecta o es manipulado, la ejecución debe permanecer completamente contenida.

Ejemplo:

  • Los intentos iniciales de ejecución de comandos pueden parecer exitosos, pero en realidad se ejecutan localmente. La validación y el aislamiento evitan que estos resultados se malinterpreten o escalen más allá del sandbox.

4. Validación y Control de Falsos Positivos

Los sistemas autónomos generarán hipótesis erróneas. Es lo esperado.

Un sistema seguro debe:

  • Tratar los hallazgos iniciales como hipótesis
  • Reproducir el comportamiento antes de informar
  • Utilizar lógica de validación separada del descubrimiento

Sin esto, los ingenieros se ven abrumados por el ruido y se pasan por alto problemas reales.

Ejemplo:

  • Un agente marca una posible inyección SQL debido a respuestas retrasadas. Un paso de validación reproduce la solicitud con diferentes payloads y rechaza el hallazgo cuando los retrasos no escalan de forma consistente.

5. Observabilidad Completa y Controles de Emergencia

El pentesting de IA no debe ser una caja negra.

Los operadores deben poder:

  • Inspeccionar cada acción realizada por los agentes
  • Monitorizar el comportamiento en tiempo real
  • Detener inmediatamente toda la actividad si algo parece incorrecto

Los mecanismos de parada de emergencia son un requisito de seguridad básico, no una característica avanzada.

6. Residencia de Datos y Garantías de Procesamiento

Los sistemas de pentesting de IA manejan datos sensibles de aplicaciones.

Los requisitos mínimos incluyen:

  • Garantías claras sobre dónde se procesan y almacenan los datos
  • Aislamiento regional cuando sea necesario
  • No hay movimiento de datos entre regiones por defecto

Sin esto, muchas organizaciones no pueden adoptar el pentesting de IA, independientemente de su capacidad técnica.

7. Contención de la inyección de prompts

Los agentes interactúan con contenido de aplicaciones no confiables por diseño. La inyección de prompts debe esperarse.

Los sistemas seguros deben:

  • Restringir el acceso a fuentes de datos externas no controladas
  • Prevenir rutas de exfiltración de datos
  • Aislar los entornos de ejecución para que las instrucciones inyectadas no puedan Escape de su alcance

La inyección de prompts no es un caso excepcional. Forma parte del modelo de amenazas.

Lo que esto promete y lo que no

Los sistemas autónomos, al igual que los humanos, pasarán por alto algunos problemas.

El objetivo no es la perfección. El objetivo es identificar riesgos materialmente explotables de forma más rápida, segura y a mayor escala que los modelos de prueba puntuales existentes.

Por qué publicamos un estándar de seguridad

Seguíamos teniendo las mismas conversaciones con los equipos de seguridad.

No pedían más IA. Preguntaban cómo evaluar si un sistema era seguro para funcionar.

Hasta que no haya una base compartida, los equipos se quedan adivinando si las herramientas de pentesting de IA están funcionando de forma responsable o simplemente dando por sentada la seguridad.

Así que redactamos lo que creemos que es el mínimo exigible. No una lista de verificación de productos. No una comparación. Un conjunto de requisitos aplicables que los equipos pueden usar para evaluar herramientas y hacer mejores preguntas.

Lea el estándar de seguridad completo

Si desea una versión concisa y neutral de esta lista que pueda compartir internamente o usar al evaluar herramientas, la hemos publicado en formato PDF.

También incluye un apéndice que muestra cómo una implementación, Aikido Attack, se ajusta a estos requisitos para mayor transparencia.

Véalo aquí: ¿Cuándo es seguro el pentesting de IA? Requisitos mínimos de seguridad para las pruebas de seguridad autónomas

Vea cómo funciona en la práctica

Si tiene curiosidad sobre cómo se implementan estos requisitos de seguridad en un sistema real de pentesting de IA, también puede echar un vistazo a Aikido Attack, nuestro enfoque para las pruebas de seguridad impulsadas por IA.

Fue diseñado para cumplir estas limitaciones, basándose en lo que se vuelve necesario una vez que los sistemas de pentesting de IA operan contra aplicaciones reales a escala.

Puede explorar cómo funciona, o utilizar esta lista para evaluar cualquier herramienta que esté considerando.

Compartir:

https://www.aikido.dev/blog/ai-pentesting-safety-requirements

Suscríbase para recibir noticias sobre amenazas.

4.7/5
¿Cansado de los falsos positivos?

Prueba Aikido como otros 100k.
Empiece ahora
Obtenga un recorrido personalizado

Con la confianza de más de 100k equipos

Reservar ahora
Escanee su aplicación en busca de IDORs y rutas de ataque reales

Con la confianza de más de 100k equipos

Empezar a escanear
Vea cómo el pentesting de IA prueba su aplicación

Con la confianza de más de 100k equipos

Empezar a probar

Asegura tu plataforma ahora

Protege tu código, la nube y el entorno de ejecución en un único sistema central.
Encuentra y corrije vulnerabilidades de forma rápida y automática.

No se requiere tarjeta de crédito | Resultados del escaneo en 32 segundos.