あなたが寝ている間に仕事をしてくれるAIエージェントは素晴らしいように思えますが、実際ははるかに混乱していて、「まるで監督が必要な幼児のようなものです」

2026-02-24 21:22:36

サマー・ユエはMetaの超知能チームで安全性と整合性に取り組んでいますが、自身も自律型AIエージェントに関して過信しやすいことを認めています。

おすすめ動画

月曜日にXに投稿した中で、ユエはMac miniコンピュータ上でローカルに動作する彼女のOpenClaw自律AIエージェントが、最初に指示された一時停止と確認を無視して、彼女のメールボックス全体を削除したことを述べました。

「爆弾を解除するようにMac Miniに走った」と彼女は言いました。それは、「初心者のミス」だったと付け加えました。彼女は、数週間安全にエージェントを試験運用していたテスト用のメールボックスでは動作していたが、実際のメールボックスではエージェントが彼女の元の指示を失ったと説明しました。

ユエの経験は、「24/7 AIエージェントはすべてを変えた」というバイラル投稿、例えば『ロブスター革命：なぜ常時稼働のAIエージェントはこれまでになくスムーズなのか』と対照的です。そこではピーター・ディアマンディスが、常時稼働のAIははるかに摩擦が少ないと主張しています。

「これを使うとどう感じるか教えましょう」とディアマンディスは書いています。「朝起きると、私のエージェント—スキッピーという名前で陽気に皮肉っぽくて信じられないほど有能なエージェント—があなたが寝ている間に8時間働いています。マークダウンの千ページを読んで、ファイルを整理し、3つのプロジェクト計画を作成し、旅行を予約し、夜11時にした質問を調査し、忘れてしまったこともあります。」

「Mac miniが6時間オフラインになったとき、私は禁断症状を感じました」と彼は付け加えました。「まるで親友が消えたような気分でした。」

これらのAIエージェントの力に関する対照的な証言は、今日の「常時稼働」AIへの推進の核心にある緊張感を捉えています。OpenClawやClaude Codeのようなツールが長時間エージェントを稼働させることを技術的に可能にする中、睡眠中に動作するAIのアイデアに対する期待は高まっています。しかし、実際には、初期ユーザーは自律性が脆弱で予測不可能、管理に労力を要することを指摘しています。今日のエージェントは、人間の仕事を置き換えるのではなく、むしろ継続的な監視、ガードレール、介入を必要とし、特にリスクが高まるときにはそうした管理が不可欠です。

AIエージェントはシンプルで低リスクなタスクに最適

かつてOpenAIで応用AIエンジニアとして働いていたシャヤマル・アナドカットは、今日の成功しているエージェントのほとんどは、頻繁に人間の確認を必要としたり、厳密に制約された明確なタスクに限定されていると述べました。ただし、測定と評価の技術が向上すれば、これは変わると強調しました。

「個々のステップで95％の正確性を持つシステムは、20ステップの自律的なワークフローでは混乱します」とアナドカットは言います。「長期的な計画はまだ弱いです。」その結果、エージェントは短いタスクチェーンでは良好に動作しますが、複雑で複数日にわたるプロジェクトを管理しようとすると崩壊しやすいと説明しました。記憶も大きな制約です。「多くのエージェントでは、記憶は存在しないか脆弱です。作業の文脈、優先順位、制約を一貫して保持できるシステムが必要です。」

しかし、Googleの元主任研究者であり、スタンフォード大学名誉教授、AI21 Labsの共同創設者であるヨアブ・ショハムによると、AIエージェントの約束はすべて幻想ではありません。ただし、人々が先走る危険性もあると指摘します。彼は、今日のAIエージェントは、リスクが低く、曖昧さが許容され、誤りが安価で済むタスクに最も適していると説明しました。

「開発者はおもちゃが好きで、素晴らしいことができるおもちゃを持っています」と彼はフォーチュンに語りました。「やっていることが比較的シンプルでリスクが低く、誤差に寛容であれば、それで十分です。」例えば、エージェントに10,000のウェブサイトを読ませ、その結果を使って夜間に役立つ情報を提供させるといったことです。

しかし、ミッションクリティカルな企業のワークフローには、はるかに高い基準が求められます。企業は検証可能で再現性がありコスト効率の良いシステムを必要とし、これらの要件はすぐに完全自律型、常時稼働のエージェントの「設定して放置」的な約束を崩してしまいます。コーディングや数学のような高度に構造化された分野では、より深い自動化がすでに可能です。しかし、ほとんどの実世界のビジネスプロセスでは、エージェントを信頼性の高いものにするための作業は、その利益を上回ることが多いとショハムは述べています。

コンサルティング会社West Monroeの最高AI責任者ブレット・グリーンスタインは、OpenClawのようなツールは、2022年にChatGPTが登場したときの生成AIのターニングポイントに似ていると指摘しました。初めて、AIエージェントのアイデアが誰でもアクセスできるものになったのです。それでも、それは24時間365日の「魔法の解決策」ではありません。

「長時間動き続けることは可能ですが、まるで幼児のように監督が必要です」と彼は言います。LinkedInのメッセージのスキャンやニュースの追跡など、一部のタスクは睡眠中に行うのは合理的です。「睡眠中に顧客のフィードバックに答えさせるのはどうかと思います」と彼は付け加えました。

AIエージェントに委任する力は強力に感じられる

それでも、実世界のタスクをAIエージェントに委任できる能力は、ユーザーにとって非常に魅力的だとグリーンスタインは強調しました。彼は、自分の衣服をクリーニングに出すという単純なタスクをAIエージェントに任せ、その仕事を静かに完了させるのを見守った経験を挙げました。

エージェントは自動的にクリーニング店に連絡し、メールのやり取りを通じて引き取りの手配をし、タイミングを調整し、ドアベルカメラを監視して引き取りを確認し、作業完了をグリーンスタインに通知しました。このエピソードは、エージェントが複数のシステムを横断して動作し、計画通りにいかない場合に適応できることを示しています。しかし、同時にこうしたツールは依然として厳格なガードレールと監督を必要とする理由も浮き彫りにしました。特に、企業環境に展開される前にはなおさらです。

「OpenClawは、多くの人にとって安全に感じられる設定にはなっていません」とグリーンスタインは言います。「まだ私たちの生活の信頼できる一部になるには成熟しきっていません。」AIを日常生活やビジネス運営に受け入れるには、時間をかけて信頼を築く必要があります。社会的に信頼が確立されるのと同じように。

それでも、需要はすでに明らかです。グリーンスタインは、OpenClawに特化したミートアップや業界の早期集まりを指摘し、これは非常に若いツールとしては異例の急速な出現だと述べました。「これは、実用的なAIに対する人々の欲求を示しています」と彼は言います。質問に答えるだけでなく、行動を起こすシステムです。

クラウドベースのコンテンツ管理・コラボレーション企業BoxのCEOアーロン・レビーは、今起きているAIエージェントの動きを「将来起こりうることの小さなきらめき」と呼びました。

「いくつかのきらめきは実現しないまま終わることもありますし、いくつかは標準になってしまいます」と彼は説明し、2年前にAI企業CognitionがSlackと連携してタスク委任やバグ修正、データ分析、コードレビューを行う初期エージェントDevinを導入した例を挙げました。当時は未来的に見えましたが、今では「誰もこれが標準的な実践だと混乱していません」と彼は言います。「SlackでClaude Codeに仕事をさせることもできる—かつては完全にクレイジーなアイデアだったものが、今やほとんどの現代的なエンジニアリングチームの標準になっています。」

しかし、AIエージェントは特定の離散的なタスクの自動化には非常に優れていますが、ほとんどの仕事を構成する広範で文脈依存の作業にはまだ不向きだとレビーは強調します。AIエージェントは少数のタスクを完全に自動化できるかもしれませんが、関係性のナビゲーションや会議への参加など、他の作業は苦手です。

「AIラボが『24ヶ月で全知識作業を自動化する』と言ったとき、それは通常、非常に狭い定義の仕事です」と彼は言います。「エージェントができることの定義は、経済において雇われる仕事の定義と同じではありません。」

信頼性の要素は、誤作動が起きたときに重要

Fortune 500の小売業者のスタッフデータサイエンティスト、アビナッシュ・ヴートクリは、ほとんどの企業向けAIエージェントは「絶対に babysitter が必要」であり、現時点では厳格に制約された自律性と広範なガードレールを持つ企業環境でしか機能しないと述べました。「リスクは非常に大きい」と彼は説明します。

例えば、彼は企業のサイバーセキュリティ向けにAIエージェントが単にアラートを出すだけでなく、積極的に調査を行うシステムを構築したと述べました。アナリストに何千もの警告を一度に送るのではなく、エージェントは証拠をリアルタイムで収集し、脅威情報データベースに問い合わせ、行動パターンを分析し、誤検知を除外し、状況のエスカレーションが必要かどうかを判断します。

このシステムは、厳格に制約された自律性と広範なガードレールに依存しており、人間の作業負荷を軽減しつつ監督を維持します。

サイバーセキュリティにおいて、誤った判断をした場合の結果は即座に深刻です。「AIが正当な顧客をブロックしてしまえば、莫大な収益損失を招きますし、巧妙な脅威者をネットワークに侵入させてしまうこともあります」と彼は言います。「誤作動が起きたときの影響は絶対に重要です。」

AI運用コンサルタントのブリーアナ・ホワイトヘッドは、業界は「信頼の較正段階」にあると述べました。

AIエージェントは、多くの人が思うほど多くのことをできるわけではありませんが、誇大宣伝ほどはできません。

「本当のスキルはエージェントを作ることではなく、引き継ぎを設計することです」と彼女は説明します。「ほとんどの人はエージェントを過信してトラブルを片付けたり、すべての出力を細かく管理して、AIが少なくとも楽になるどころか余計に手間だと感じる原因になっています。」彼女が言うには、明確な引き継ぎポイントを設計し、一つは完全に委任できるもの、もう一つは素早くレビューできるもの、そしてもう一つは人間だけが行うべき作業にすることが重要です。

今のところ、彼女はエージェントは「知識作業の中間層—会議の議事録をアクションアイテムにまとめたり、フォローアップメールを誰かの声で下書きしたり、調査資料をまとめたり、優先順位を整理して明確な計画に落とし込む」といった作業において、「本当に優れている」と述べています。

ただし、空気を読む、曖昧さを乗り越える、関係性に基づく判断を要する作業は、AIエージェントの本番にはまだ適していません。「投資家向けのコミュニケーションを完全自動化したいとクライアントが言ったことがあります」と彼女は言います。「AIは美しく下書きできますが、資金提供者が興味を失いかけているときに気づき、別のアプローチが必要かどうかを判断できません。エージェントはメールを下書きしますが、送るかどうかは人間が決めなければなりません。」

今のところ、AIエージェントと働くと睡眠は難しいかもしれません

今のところ、AIエージェントと働くことは、彼らが働いている間に眠ることよりも、半覚醒状態を保ちながら働かせることに近いかもしれません。OpenClawのようなツールは何時間も動作し続けることができますが、多くの初期ユーザーにとって、その自律性は新たな警戒心を伴います—ログの確認、出力のレビュー、問題が起きる前に介入することです。

この状況は、最近のバイラル投稿『トークン不安』に表れています。投資家のニクンジュ・コタリは、友人が早めにパーティを抜けた理由を、「疲れたから」ではなく、「エージェントに戻りたかったから」と書いています。「もう誰もそれを疑問に思わない」とコタリは書きました。「半分の人は同じことを考えています。もう半分はおそらくエージェントの進行状況を確認しているでしょう。パーティで。」

あなたが眠っている間に動作するAIの夢は現実かもしれません。でも今のところ、多くの人を眠らせ続けています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。