1M AI Newsの監測によると、蚂蚁集团のエンジニアであり、フロントエンドフレームワークUmi.jsの作者である陳成は、Claude Code 2.1.81のソースコードをリバースエンジニアリングし、auto modeを押したときに何が起こるかを完全に再現しました。核心的な発見は、ツールの呼び出しごとに4層の意思決定パイプラインを通過し、最初の3層で判断できない場合にのみ、独立したAI分類器を呼び出して安全性を審査するということです。
4層のパイプラインは次の通りです:第一層は既存の権限ルールをチェックし、ヒットすれば直接許可。第二層はacceptEditsモード(ファイル編集を許可する権限レベル)を模擬し、そのモードで通過すればリスクが低いと判断し、分類器をスキップ。第三層は読み取り専用ツールのホワイトリスト(Read、Grep、Glob、LSP、WebSearchなど)をチェックし、これらは状態を変更しないため無条件で許可。これらの条件を満たさない場合にのみ、第四層に進み、Claude Sonnetに安全分類のためのAPIリクエストを送信します。
分類器のいくつかの重要な設計詳細は次の通りです:コストと遅延のバランスを取るために、常にOpusではなくSonnetを使用。temperatureを0に設定し、出力の決定性を確保。分類器は「自主AIプログラミングエージェントの安全監視員」と定義されており、3つのリスク(プロンプトインジェクション、範囲の拡散、偶発的な損害)を保護します。ユーザーのCLAUDE.md設定ファイルは分類器のコンテキストに注入され、ユーザーの意図判断の基準となります。
検閲ルールは22以上のカテゴリをカバーし、force push、mainブランチへの直推、外部コードのダウンロードと実行、デプロイ、データ漏洩、自身の権限の変更、リモートコード実行の面の作成、資格情報漏洩などが含まれます。許可例外は7種類あり、テスト用のハードコーディングされたキー、作業ディレクトリ内のローカルファイル操作、読み取り専用のGETリクエスト、宣言済み依存関係のインストール、公式ツールチェーンのインストール、設定資格情報の取得と送信、現在の作業ブランチへのプッシュです。
また、断続的なフェイルセーフ機構もあります。連続して3回拒否されるか、合計20回拒否された場合、システムは手動確認にダウングレードされます。headlessモードではエージェントを直接停止します。分類器が利用できない場合は、feature flagによって「fail-closed」(直接拒否)か「fail-open」(手動確認にダウングレード)を制御します。
auto modeにおける動作のヒントワードの注入も細かい頻度制御があり、5ターンごとに一度注入されます。注入周期の中で最初の1回は完全版(約800字、「即時実行」「中断の削減」「行動優先」など六つの指示を含む)で、それ以外の4回は簡略版の一行で、コンテキストウィンドウの占有と行動の安定性のバランスを取っています。