OpenAIは昨日(9日)、AIセキュリティプラットフォームPromptfooを買収したと発表しました。この新興企業は2024年に設立され、大規模言語モデル(LLM)の脆弱性テストやレッドチーム演習(実際のハッカー行動を模倣したセキュリティ防御テスト)を専門としています。
AIが対話型ロボットから実行権限を持つ「AI同僚」へと進化する中、これらのエージェントが脱獄されたり、敏感なデータを誤って伝えたりしないようにすることは、企業の大規模導入における重要な課題となっています。
OpenAIの公式発表によると、Promptfooの技術は2026年2月にリリースされた企業向けプラットフォーム「OpenAI Frontier」に深く統合され、エージェントを構築する企業を支援します。
発表によると、Promptfooのオープンソースツールはすでに25%以上のフォーチュン500企業に採用され、開発者ユーザーは35万人に上ります。このわずか23人のチームは、2023年7月の最新資金調達ラウンド後の評価額が8,600万ドルに達しています。
Promptfooの創設者Ian WebsterとMichael D’Angeloは、全チームとともにOpenAIに参加します。
簡単に言えば、AIエージェントは今や「資料を調べる大学生」から「あなたの印鑑を使って仕事をする秘書」に徐々に変わりつつあります。
この変化により、リスクは情報漏洩から行動の制御喪失へと進化しています。AIに自主的にタスクを実行させる場合、最も危険なのは誤った発言ではなく、意図の理解に偏りが生じたり、ハッカーによる隠された指示に誤導されたりして、誤った送金や重要ファイルの削除など、取り返しのつかない行動を取ることです。
複数のAIが協調して動作する環境では、1つのエージェントの論理エラーが連鎖的に大きな災害を引き起こす可能性があります。
したがって、エージェント時代のセキュリティの核心は情報を遮断することではなく、「行動を監視すること」にあります。管理者のように、AIに明確な権限範囲と二重チェックの仕組みを設定し、AIの動作を常に追跡・制御できる状態にすることが必要です。AIの行動を瞬時に把握でき、権限を正確に管理できる仕組みこそが、自動化の力を逆に企業の最も守りにくい裏口にしないための鍵となります。