🚨 ANTHROPICはCLAUDE OPUS 4.7で新たな基準を設定


このリリースは生のパフォーマンスよりも信頼性と実行性に重点を置いています。
ドリフトしない数時間の稼働が可能なエージェントを導入し、幻覚の減少と較正の改善も行っています。安全性も強化され、プロンプトインジェクションやジャイルブック攻撃に対する耐性が向上しています。
モデルは引き続き100万トークンのコンテキストウィンドウを保持していますが、大規模な入力に対する検索と推論の効果も向上しています。
重要な追加機能は「ルーチン」です。
これらはAPI、スケジュール、またはイベントによってトリガーされる永続的なワークフローで、タスクを自律的にバックグラウンドで実行できるようにします。
ここに変化があります:
AIはアシスタントからインフラへと移行しています。
SWEベンチでのスコアは64.3%、以前の53.4%から向上
検証済みエージェントコーディングで87.6%
スケールされたツール使用で77.3%
実世界のコンピュータタスクで78.0%
また、モデルが通常劣化しやすい分野も改善しています:
エージェントサーチで79.3%
金融分析で64.4%
多言語Q&Aで91.5%
そして、長いコンテキストの推論も維持されています:
ツールを使った視覚推論で90%以上
大学院レベルのベンチマークで94.2%
ここに要点があります:
これは最高スコアを追求することではありません。
各ドメインでの一貫性が重要です。
Opus 4.7はすべてのカテゴリを支配しているわけではありません。
しかし、すべての分野で信頼性の高いパフォーマンスを発揮しています。
それが実運用システムに求められるものです。
フロンティアはもはや単なる知能だけではありません。
実際の負荷下での安定性です。
原文表示
post-image
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン