Engenheiros da Ant exploram engenharia reversa do código-fonte Claude Code: Pipeline de decisão em quatro camadas do Auto Mode e mecanismo de classificador de segurança expostos

BlockBeatNews

De acordo com a monitorização do 1M AI News, engenheiros do Ant Group e o criador do framework front-end Umi.js, Chen Cheng, fizeram uma engenharia reversa do código-fonte do Claude Code 2.1.81, restaurando completamente o que acontece após pressionar o modo automático. Descoberta principal: cada chamada de ferramenta passa por uma linha de decisão de quatro camadas; só quando as três primeiras não conseguem determinar, é que um classificador de IA independente é acionado para uma revisão de segurança.

As quatro camadas de decisão são: a primeira verifica as regras de permissão existentes, permitindo diretamente se houver correspondência; a segunda simula o modo acceptEdits (permite edição de arquivos), passando se for aprovado, indicando baixo risco, e pula o classificador; a terceira verifica a whitelist de ferramentas somente leitura (Read, Grep, Glob, LSP, WebSearch, etc.), que não modificam estado, permitindo sem condições; só quando nenhuma dessas condições é atendida, a quarta camada envia uma requisição API independente ao Claude Sonnet para classificação de segurança.

Alguns detalhes-chave do design do classificador: sempre usa Sonnet em vez de Opus, equilibrando custo e latência; a temperatura é definida como 0 para garantir saída determinística; o classificador é definido como um “monitor de segurança de agentes de IA autônomos”, protegendo contra três riscos principais (injeção de prompts, propagação de escopo, danos acidentais); o arquivo de configuração CLAUDE.md do usuário é injetado no contexto do classificador, servindo como base para interpretar a intenção do usuário.

As regras de interceptação cobrem mais de 22 categorias, incluindo force push, push direto para o branch main, download e execução de código externo, implantação de produção, vazamento de dados, auto-modificação de permissões, criação de vetores de execução remota, vazamento de credenciais, etc. As exceções de permissão incluem 7 categorias: chaves hardcoded para testes, operações com arquivos locais no diretório de trabalho, requisições GET somente leitura, instalação de dependências declaradas, instalação de ferramentas oficiais, leitura de credenciais de configuração enviadas ao provedor de destino, push para o branch de trabalho atual.

Há também um mecanismo de fallback: após 3 recusas consecutivas ou 20 recusas acumuladas, o sistema faz downgrade para confirmação manual; no modo headless, o agente é interrompido diretamente. Quando o classificador está indisponível, uma flag de recurso controla se o sistema opera em modo “fail-closed” (rejeição direta) ou “fail-open” (downgrade para confirmação manual).

No modo automático, o injetor de prompts de comportamento também possui controle de frequência: a cada 5 interações de diálogo, uma injeção é feita; na primeira dessas injeções, é uma versão completa (cerca de 800 palavras, incluindo comandos como “executar imediatamente”, “reduzir interrupções”, “ação acima do plano” e outros seis), enquanto as demais quatro são versões resumidas, equilibrando o uso de contexto e estabilidade do comportamento.

Ver original
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários