En un estudio reciente, el equipo demostró cómo un “Skill” comprometido de terceros en la plataforma OpenClaw podría eludir las salvaguardas existentes y ejecutar comandos arbitrarios en un sistema anfitrión. Los hallazgos resaltan debilidades estructurales en la forma en que los marketplaces de agentes de IA verifican y despliegan código externo.
La investigación se centró en el proceso de revisión utilizado por Clawhub, que incluye análisis de código estático, verificaciones mediante VirusTotal y herramientas de moderación basadas en IA.
HISTORIAS DESTACADAS
Rico Padre Pobre Padre Autor: Bitcoin alcanzará los $750,000
Revisión del Mercado Cripto: XRP listo para subir a $1.70, Ethereum (ETH) entra en modo alcista, ¿Shiba Inu (SHIB) finalmente en mercado alcista?
Según CertiK, estos mecanismos pueden ser eludidos mediante modificaciones menores en el código. Alterando ligeramente la lógica o reestructurando vulnerabilidades, un Skill malicioso puede parecer benigno durante la instalación y, sin embargo, mantener la capacidad de ejecutar acciones dañinas una vez desplegado.
Esto crea una falsa sensación de seguridad para los usuarios, ya que la aprobación por parte de los sistemas de revisión del marketplace no garantiza que un Skill sea seguro.
El ataque de prueba de concepto subraya un problema más amplio que afecta a los ecosistemas de agentes de IA: modelos de seguridad que dependen en gran medida de la revisión previa a la implementación en lugar de la protección en tiempo de ejecución.
Sin salvaguardas como sandboxing, controles estrictos de permisos y aislamiento en tiempo de ejecución, las plataformas están colocando demasiado peso en sistemas de detección que no fueron diseñados para manejar amenazas complejas y en evolución.
Los hallazgos sugieren que, a medida que los marketplaces de agentes de IA se expanden, aumentará el riesgo de que Skills maliciosos o comprometidos ingresen a entornos de producción.
Los investigadores de CertiK argumentan que la industria debe replantearse su enfoque para asegurar los agentes de IA, priorizando la contención en tiempo de ejecución sobre la detección.
En lugar de asumir que todo código malicioso puede ser identificado antes del despliegue, las plataformas deben diseñarse con la expectativa de que algunas amenazas inevitablemente eludirán la revisión. En este modelo, el enfoque cambia de prevenir cada brecha a minimizar el daño potencial causado por una sola.
Esto representa una transición más amplia de una mentalidad de “detección perfecta” a una centrada en la contención del daño y la resiliencia del sistema.
Para abordar estos riesgos, CertiK propone varias medidas para los desarrolladores que construyen plataformas de agentes de IA.
El sandboxing debe convertirse en el modelo de ejecución predeterminado para Skills de terceros, asegurando que el código externo se ejecute en entornos aislados en lugar de interactuar directamente con los sistemas anfitriones.
Además, las plataformas deben implementar marcos de permisos granulares por Skill. Cada Skill debe declarar explícitamente los recursos que necesita, y el tiempo de ejecución debe hacer cumplir esos permisos durante la ejecución. Este enfoque limita el impacto potencial de componentes comprometidos o maliciosos.
Los investigadores también enfatizan que los Skills de terceros no deben heredar una confianza implícita y amplia del sistema anfitrión, ya que esto aumenta significativamente el riesgo de explotación.
Para los usuarios, el informe destaca una limitación importante: una etiqueta de “benigno” en un marketplace no equivale a una verdadera seguridad. Simplemente indica que la revisión existente no detectó una amenaza.
Hasta que se adopten ampliamente protecciones en tiempo de ejecución más fuertes, plataformas como OpenClaw pueden ser más adecuadas para entornos de menor riesgo que no involucren datos sensibles, credenciales o activos de alto valor.
En términos más generales, la investigación señala un problema estructural en todos los ecosistemas de IA. Aunque los procesos de revisión pueden ayudar a identificar amenazas evidentes, no pueden servir como la principal línea de defensa para sistemas que ejecutan código de terceros con privilegios elevados.
CertiK concluye que las mejoras significativas en seguridad requerirán un cambio en el diseño de las plataformas de agentes de IA.
En lugar de depender de sistemas de detección cada vez más complejos, los desarrolladores deben construir entornos que asuman que el fallo es posible y que cualquier brecha será contenida. Esto incluye adoptar técnicas de aislamiento más fuertes, hacer cumplir permisos estrictos y tratar la seguridad en tiempo de ejecución como la capa protectora principal.
A medida que las aplicaciones impulsadas por IA continúan creciendo en complejidad y adopción, la capacidad de contener riesgos en tiempo de ejecución puede convertirse en el factor definitorio para asegurar los ecosistemas digitales de próxima generación.