アリエンジニアがClaudeコードソースコードをリバースエンジニアリング：Auto Modeの4層決定パイプラインとセキュリティ分類器メカニズムが露出

BlockBeatNews

2026-03-25 11:37:22

1M AI Newsの監測によると、蚂蚁集团のエンジニアであり、フロントエンドフレームワークUmi.jsの作者である陳成は、Claude Code 2.1.81のソースコードをリバースエンジニアリングし、auto modeを押したときに何が起こるかを完全に再現しました。核心的な発見は、ツールの呼び出しごとに4層の意思決定パイプラインを通過し、最初の3層で判断できない場合にのみ、独立したAI分類器を呼び出して安全性を審査するということです。

4層のパイプラインは次の通りです：第一層は既存の権限ルールをチェックし、ヒットすれば直接許可。第二層はacceptEditsモード（ファイル編集を許可する権限レベル）を模擬し、そのモードで通過すればリスクが低いと判断し、分類器をスキップ。第三層は読み取り専用ツールのホワイトリスト（Read、Grep、Glob、LSP、WebSearchなど）をチェックし、これらは状態を変更しないため無条件で許可。これらの条件を満たさない場合にのみ、第四層に進み、Claude Sonnetに安全分類のためのAPIリクエストを送信します。

分類器のいくつかの重要な設計詳細は次の通りです：コストと遅延のバランスを取るために、常にOpusではなくSonnetを使用。temperatureを0に設定し、出力の決定性を確保。分類器は「自主AIプログラミングエージェントの安全監視員」と定義されており、3つのリスク（プロンプトインジェクション、範囲の拡散、偶発的な損害）を保護します。ユーザーのCLAUDE.md設定ファイルは分類器のコンテキストに注入され、ユーザーの意図判断の基準となります。

検閲ルールは22以上のカテゴリをカバーし、force push、mainブランチへの直推、外部コードのダウンロードと実行、デプロイ、データ漏洩、自身の権限の変更、リモートコード実行の面の作成、資格情報漏洩などが含まれます。許可例外は7種類あり、テスト用のハードコーディングされたキー、作業ディレクトリ内のローカルファイル操作、読み取り専用のGETリクエスト、宣言済み依存関係のインストール、公式ツールチェーンのインストール、設定資格情報の取得と送信、現在の作業ブランチへのプッシュです。

また、断続的なフェイルセーフ機構もあります。連続して3回拒否されるか、合計20回拒否された場合、システムは手動確認にダウングレードされます。headlessモードではエージェントを直接停止します。分類器が利用できない場合は、feature flagによって「fail-closed」（直接拒否）か「fail-open」（手動確認にダウングレード）を制御します。

auto modeにおける動作のヒントワードの注入も細かい頻度制御があり、5ターンごとに一度注入されます。注入周期の中で最初の1回は完全版（約800字、「即時実行」「中断の削減」「行動優先」など六つの指示を含む）で、それ以外の4回は簡略版の一行で、コンテキストウィンドウの占有と行動の安定性のバランスを取っています。

原文表示

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし