Según la monitorización de 1M AI News, el ingeniero de Ant Group y autor del marco front-end Umi.js, Chen Cheng, realizó ingeniería inversa del código fuente de Claude Code 2.1.81, restaurando completamente lo que sucede después de presionar el modo automático. Descubrimiento principal: cada llamada a la herramienta pasa por una línea de decisión de cuatro niveles, y solo cuando los tres primeros no pueden determinar, se llama a un clasificador de IA independiente para una revisión de seguridad.
La línea de decisión de cuatro niveles es: el primer nivel verifica las reglas de permisos existentes, y si coincide, se permite directamente; el segundo nivel simula el modo acceptEdits (es decir, permisos para editar archivos), y si se aprueba en este modo, indica bajo riesgo, por lo que se omite el clasificador; el tercer nivel verifica la lista blanca de herramientas de solo lectura (Read, Grep, Glob, LSP, WebSearch, etc.), que no modifican ningún estado, y se permiten sin condiciones; si ninguna de estas condiciones se cumple, se pasa al cuarto nivel, que envía una solicitud API independiente a Claude Sonnet para clasificación de seguridad.
Algunos detalles clave del diseño del clasificador: siempre usa Sonnet en lugar de Opus, equilibrando costo y latencia; la temperatura se establece en 0 para garantizar la determinación en la salida; el clasificador se define como “el monitor de seguridad del agente de programación autónomo de IA”, protegiendo contra tres tipos de riesgos (inyección de palabras clave, expansión de alcance, daño accidental); el archivo de configuración CLAUDE.md del usuario se inyecta en el contexto del clasificador, sirviendo como base para interpretar la intención del usuario.
Las reglas de bloqueo cubren más de 22 categorías, incluyendo push forzado, push directo a la rama principal, descarga y ejecución de código externo, despliegue en producción, fuga de datos, modificación de permisos, creación de vectores de ejecución remota, filtración de credenciales, etc. Las excepciones de permitidos incluyen 7 categorías: claves codificadas para pruebas, operaciones con archivos locales en el directorio de trabajo, solicitudes GET de solo lectura, instalación de dependencias declaradas, instalación de herramientas oficiales, lectura de credenciales de configuración enviadas al proveedor objetivo, y push a la rama de trabajo actual.
También existe un mecanismo de cortocircuito: después de 3 rechazos consecutivos o 20 rechazos acumulados, el sistema degrada a confirmación manual; en modo headless, el agente se detiene directamente. Cuando el clasificador no está disponible, una bandera de función controla si se trata de un “fail-closed” (rechazo directo) o “fail-open” (degradación a confirmación manual).
El modo automático también tiene un control de frecuencia para la inyección de instrucciones: cada 5 rondas de diálogo, se inyecta una vez; en cada ciclo de 5 inyecciones, la primera es la versión completa (aproximadamente 800 palabras, incluyendo instrucciones como “ejecutar inmediatamente, reducir interrupciones, acción sobre planificación”), y las otras 4 son versiones simplificadas, equilibrando el uso del contexto y la estabilidad del comportamiento.