ハーネスエンジニアリングとは何ですか?AI の次の戦場はモデルではなく、モデルの外側にあるその層のアーキテクチャです。

2026年、AI産業に新しい共通認識が生まれた。AI製品の良し悪しを決めるのはモデルそのものではなく、「harness」と呼ばれる、モデルの外側の層だということだ。Claude Code、Cursor、OpenClawが使用する基盤モデルがますます近づいていく一方で、実際にプロダクトの差を生み出すのはharnessの設計である。Martin Fowlerの技術ブログ、Anthropicのプロダクト責任者trq212、そしてAndrej Karpathyの最近の発言はすべて、同じ方向性を示している。AIの次の戦場はHarness Engineeringだ。

什麼是 Agent Harness

AIエージェントは2つの部分に分解できる。モデル(Model)とHarnessだ。モデルは脳であり、言語の理解と推論を担う。Harnessはモデル以外のすべて――ツール呼び出し、メモリ管理、コンテキストの組み立て、状態の永続化、エラー処理、安全ガードレール、タスクのスケジューリング、ライフサイクル管理。

直感的な比喩で言うと、LLMは1頭の馬で、harnessは馬具――手綱、鞍、そして馬車との連結構造だ。馬具がなければ、馬がどれほど強くても車を引けない。AIエージェントも同様で、モデルがどれほど賢くても、良いharnessがなければ実際のタスクを確実に完了できない。

Akshay Pachaarが広く拡散されたツイートで別の比喩を示している。「裸のLLMは、OSのないCPUのようなもの――計算はできるが、自分だけでは役に立つことは何もできない」。Harnessは、そのOSだ。

なぜ2026年にHarness Engineeringが突然重要になるのか

理由は3つある。

第一に、モデル能力が同質化していること。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Proの多くのベンチマークテストにおける差は、すでに個々の一桁のパーセントポイントへと縮小している。モデルがボトルネックでなくなると、プロダクトの差別化は自然にharness層へ移る。

第二に、エージェントが実験から本番へ入ってきたこと。2025年のエージェントの多くはデモだが、2026年のエージェントは企業環境で稼働する必要がある。中断からの復旧、長時間稼働、多段階タスク、権限制御に対応しなければならない。これらはすべてharnessの仕事だ。

第三に、LLMは生まれつきステートレスだということ。新しいsessionのたびにゼロから始まり、モデルは前回の会話を覚えていない。Harnessが、記憶、コンテキスト、作業の進捗を永続化し、エージェントが本当の「同僚」のように継続して働けるようにする。

Harnessのコアコンポーネント

完全なagent harnessは、通常、次のような複数の層を含む:

コンポーネント 機能 比喩 Orchestration Loop agentの「考える→行動する→観察する」の循環を制御 作業システムのメインループ Tool Management agentが利用できるツールの管理(ファイルの読み書き、API呼び出し、ブラウザ操作など) ドライバプログラム Context Engineering 毎回モデルを呼び出すときにどの情報を渡し、どの情報を切り取るかを決める メモリ管理 State Persistence 作業の進捗、会話履歴、中間結果を保存 ハードディスク Error Recovery 失敗を検知し、自動で再試行またはロールバック 例外処理 Safety Guardrails agentの行動範囲を制限し、危険な操作を防ぐ ファイアウォール Verification Loops エージェントが出力品質を自己検査できるようにする ユニットテスト

3層のエンジニアリング:Prompt、Context、Harness

LLMのエンジニアリング実践は、3つの同心円状のレイヤーに分けられる:

最も内側はPrompt Engineering――モデルに送る指示の設計で、モデルが「どう考えるか」を決める。これは2023年の主流スキルだ。

中間層はContext Engineering――モデルが「何を見るか」を管理する。どの情報をどのタイミングでcontext windowに入れるか、どれを切り取るべきかを決める。context windowが100万token規模まで拡大するにつれ、この層の重要性は2025年から見え始めた。

最外層はHarness Engineering――前者2つを含み、さらにアプリケーションの基盤インフラ全体もカバーする。つまりツールのオーケストレーション、状態の永続化、エラーリカバリ、検証ループ、安全メカニズム、ライフサイクル管理。ここが2026年のコアな戦場だ。

実例:なぜ同じモデルが異なるプロダクトで天と地ほど違うのか

Claude Opus 4.6はClaude Code内では1時間ほどでコードベース全体を再構成できる。しかし同じモデルをAPI経由で簡素なharnessに接続した場合、ファイルをまたぐバグ修正すらうまくできないことがある。違いはモデルではなくharnessにある。

Claude Codeのharnessは何をしているのか?

コードベース全体を自動検索して関連ファイルを見つける。ユーザーに逐一指定させない

変更前にファイル内容を読み取り、変更後にテストを実行して検証する

テストが失敗したら、エラーを自動分析して再試行する

MCPで外部ツール(GitHub、データベースなど)に接続する

メモリシステムがsessionをまたいでユーザーの嗜好とプロジェクトの文脈を保存する

Advisorの戦略で、異なる能力のモデル同士が分業協力する

これらはすべてharnessの功績だ。

FeedforwardとFeedback:Harnessの2つの制御モード

Martin Fowlerの技術ブログの分析によれば、harnessの制御メカニズムは2種類に分けられる:

Feedforward(フィードフォワード制御)―― agentの行動の前にルールを設定し、望ましくない出力を防ぐ。例えば、system prompt内の行動規範、ツールのホワイトリスト、ファイルアクセス権限。

Feedback(フィードバック制御)―― agentの行動後に結果を確認し、自己修正を許可する。例えば、テストを実行してコードが正しいことを確認する、出力を想定フォーマットと照合する、幻覚を検知して再生成する。

良いharnessは、2つの制御を同時に使う。行動範囲を制限しつつ、柔軟性も保つ。

Harness Engineeringのプロダクト化:Anthropicはどうやってやるのか

2026年4月にAnthropicが集中的にリリースしたプロダクト更新は、ほぼすべてharness engineeringのプロダクト化だ:

Managed Agents――harnessの基盤インフラ(サンドボックス、スケジューリング、状態管理)をマネージドサービス化し、開発者はagentの振る舞いを定義するだけでよい

Advisor戦略――harness層のモデル混用アーキテクチャで、より強いモデルにいつ相談すべきかを自動判断する

Cowork企業版――非技術ユーザーに対して、完全なharness(権限制御、支出管理、利用分析)を提供し、彼らが基盤技術を理解する必要をなくす

Anthropicのプロダクト責任者trq212の説明が最も的確だ。「Promptingはagentと会話するためのスキルだが、それはharnessによって仲介されている。私のコア目標は、人間とagentの間の帯域幅を広げることだ。」

開発者にとっての意味:新しい職業と新しいスキル

Harness Engineeringは、独立したエンジニアリング領域になりつつある。必要なスキルの組み合わせは、従来のバックエンドエンジニアリングやMLエンジニアリングとは異なる:

LLMの能力の境界と失敗パターンを理解する

信頼性の高いツール呼び出しとエラー処理のフローを設計する

context windowを管理する――いつ、どの情報を詰め込むか

可観測性を構築する――agentの意思決定の経路とツール利用を追跡する

安全設計――agentの行動範囲を制限しつつ、その能力を窒息させない

Vibe Codingを学んでいる、あるいはAIツールで開発している人にとって、harnessの概念を理解することは、AIエージェントとより効果的に協働するのに役立つ。なぜなら、問題がモデルにあるのかharnessにあるのか、そして(プロンプトを何度も直すのではなく)harness設定を調整することで結果をどう改善できるかが分かるからだ。

結び:次の10年のインフラをめぐる争い

AIモデルの競争は止まらないだろうが、限界利益は逓減している。harness層の競争はまだ始まったばかりだ――最も信頼でき、最も柔軟で、最も安全なharnessを構築できる者が、同じモデル能力をより良いプロダクト体験へと転換できる。

これが、なぜAnthropic、OpenAI、Googleが「モデル会社」から「プラットフォーム会社」へ転換しつつあるのかを説明している。彼らが売っているのは、もはやモデルAPIだけではなく、完全なharness基盤インフラなのだ。開発者にとって、harness engineeringを理解することは選択肢ではない。AI時代にプロダクトを構築するための中核となる素養だ。

この記事 Harness Engineering とは何か?AIの次の戦場はモデルではなく、モデルの外側のその層のアーキテクチャである。最初に出現した場所:鏈新聞 ABMedia。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Worxphere、AI搭載の採用ツールでJobKoreaをリブランディング

ゲートニュース(4月26日)— 韓国のHRプラットフォームWorxphereは、従来型のオンライン求人ボードからAI駆動の採用ソリューションへ移行するにあたり、JobKoreaをブランド変更しました。同社は、JobKoreaやAlbamonを含むサービスを統合し、正社員雇用、ギグワーク、外国人労働者の採用を対象とする統一プラットフォームを構築しています。

GateNews7時間前

AIエージェントは、複雑な学術論文を独力で再現できるようになっている:Mollickは、誤りはAIではなく人間の原文に多いと述べている

Mollick は、公開された手法とデータだけで、AI agent が元の論文やコードがない状況でも複雑な研究を再現できると指摘している。再現が原論文と一致しない場合は、多くの場合 AI ではなく、論文自体のデータ処理の誤り、または結論の過度な解釈によるものだという。Claude はまず論文を再現し、その後 GPT‑5 Pro によるクロス検証を行い、多くは成功するが、データが大きすぎる場合や replication data の問題がある場合には阻まれることがある。この傾向は人力コストを大幅に下げ、再現が一般的に実行可能な検証となり得ることを示すとともに、査読やガバナンスの制度上の課題も提起しており、政府のガバナンスツール、あるいはそれに関連する事項が重要な論点となっている。

ChainNewsAbmedia8時間前

UAEは今後2年間でAI政府モデルへの移行を発表

モハメド・ビン・ラシッド・アル・マクトゥーム殿下は、目標は政府の分野の50%を自律的なエージェント型AIを通じて運用することだと述べました。移行には「AIをマスターする」ための連邦職員の訓練も含まれ、シェイク・マンスール・ビン・ザイードが監督します。 要点:

Coinpedia04-25 08:39

Ethereal Venturesが主導する資金調達でFere AIが$1.3Mを調達:AI取引プラットフォーム

Gate Newsメッセージ、4月25日 — Globenewswireによると、AIを活用したデジタル資産取引プラットフォームであるFere AIは、Ethereal Venturesが主導した資金調達ラウンド($1.3 million)の完了を発表した。Galaxy Vision HillおよびKosmos Venturesが参加した。 このプラットフォームは

GateNews04-25 07:46

Nvidia、Blackwellインフラ上で全従業員にOpenAI Codex AIエージェントを展開

ゲートニュースのメッセージ、4月25日—Nvidiaは、GPT-5.5を搭載したOpenAIのCodexというAIエージェントを、CEOのジェンセン・フアン氏とOpenAI CEOのサム・アルトマン氏からの社内コミュニケーションによれば、約10,000人の従業員との成功した試験の後、全従業員に展開しました。 Codexは、複数の部門にまたがるコーディング、計画、ワークフロー業務を支援するよう設計されています。

GateNews04-25 03:11

AIコーディングの新興企業Cognition、$25B バリュエーションの資金調達ラウンド協議中

Gate Newsメッセージ、4月25日—AIコーディングの新興企業Cognitionは、関係者によると、$25 ビリオン規模のバリュエーションで、数億ドル以上を調達することについて、初期段階の協議を行っています。SpaceXによる競合するAIコーディング企業の買収を受けて関心が高まっています。 Co

GateNews04-25 02:51
コメント
0/400
コメントなし