ゲートニュース（4月23日）— アンソロピックのエンジニアリングチームは、過去1か月間にユーザーから報告されたClaude Codeの品質低下は、APIや基盤となるモデルの問題ではなく、3つの独立したプロダクト層の変更に起因することを確認した。3つの問題はそれぞれ4月7日、4月10日、そして4月20日に修正され、最終版は現在v2.1.116となっている。

最初の変更は3月4日に発生した。チームは、推論の強度が高いOpus 4.6で、ときおり極端なレイテンシのスパイクが発生するのを抑えるため、Claude Codeのデフォルトの推論エフォートレベルを「high」から「medium」に引き下げた。パフォーマンス低下に関する広範なユーザーの不満を受けて、チームは4月7日にこの変更を元に戻した。現在のデフォルトは、Opus 4.7は「xhigh」、その他のモデルは「high」となっている。

2つ目の問題は3月26日に導入されたバグだった。システムは、会話が1時間以上非アクティブになると古い推論レコードを消去して、セッション復旧コストを下げるよう設計されていた。しかし実装上の欠陥により、消去がその後のすべてのターンで繰り返し実行される一方で、1回だけ実行されるべきところが、そのためにモデルが以前の推論コンテキストを段階的に失っていく原因になった。これは、忘れっぽさの増加、繰り返し操作、異常なツール呼び出しとして現れた。このバグはまた、すべてのリクエストでキャッシュミスを発生させ、ユーザーの利用クォータ消費を加速させた。再現条件を覆い隠す、互いに関係のない2つの社内実験が行われたため、デバッグが1週間以上に及んだ。4月10日に修正した後、チームはOpus 4.7を使って問題のあるコードをレビューし、Opus 4.7ならバグを特定できる一方でOpus 4.6ではできないことを確認した。

3つ目の変更は、Opus 4.7とともに4月16日にリリースされた。チームは冗長な出力を減らすために、システムプロンプトに指示を追加した。数週間にわたる社内テストでは回帰は見られなかったが、リリース後に他のプロンプトとのやり取りを行うと、コーディング品質が低下した。拡張評価では、Opus 4.6と4.7の両方でパフォーマンスが3%低下していることが判明し、4月20日にロールバックが行われた。

これら3つの変更は、異なる時期に異なるユーザーグループに影響し、その組み合わせによって広範で一貫性のない品質低下が生まれ、診断を難しくした。アンソロピックは今後、ユーザーと同じ公開ビルドバージョンを使うために、より多くの社内従業員を必要とし、すべてのシステムプロンプト変更について完全なモデル評価スイートを実行し、段階的ロールアウトの期間を設けると述べた。補償として、アンソロピックはすべてのサブスクリプションユーザーの利用クォータをリセットした。

ソースを表示

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

XiaomiがMiMo-V2-Proの学習詳細を公開：1Tモデルパラメータ、数千のGPUを投入

AI業界ニュース

Gate Newsメッセージ、4月24日――Xiaomiの大規模言語モデルチームリードであるロウ・フーリが、詳細なインタビューの中で、MiMo-V2-Proモデルは合計1兆パラメータを持ち、学習には数千のGPUが必要だったことを明らかにした。彼女は、1T規模は、Claude Opus 4.6に近い性能を達成し、次の段階のAIエージェントに向けた競争力のある参加チケットを確保するための最低ラインだと述べた。

GateNewsたった今

DeepSeek V4がPutnam-2025で満点を達成、形式的な数学推論でAxiomと首位

AI業界ニュース

Gate Newsメッセージ、4月24日 — DeepSeek V4は、形式的な数学的推論の評価結果を公開し、Putnam-2025で満点の120/120を達成し、首位でAxiomと並びました。 LeanExploreと制約付きサンプリングを用いた実用レジームでは、V4-Flash-Maxは「に」に81.00を獲得しました。

GateNews8分前

どのようなAIが最も身分や地位を際立たせますか？調査で、Claudeユーザーの収入が同業を大きく上回り、Meta AIが底辺に位置することが判明

AI業界ニュース

Epoch AI の調査によると、Claude ユーザーは主に高所得層で、80%が年収 10 万ドル超です。Meta AI の収入分布は最も幅広く、10 万ドル以上が 36.5%で、低所得層の割合が最も高いです。Claude は価格が上昇し、階層別の課金になっているため、コストが増える可能性があります。Meta は導入がより容易です。将来、どの AI が暗黙のアイデンティティ指標になり得るのでしょうか。

ChainNewsAbmedia13分前

V4-Pro、内部ドッグフーディングテストで67%のコーディング合格率を達成。Opus 4.5の性能に接近

AI業界ニュース

ゲートニュース、4月24日 — V4はV4-Proモデルについて、内部ドッグフーディングのデータを公表しました。同社は、50人超のエンジニアから約200件の実世界のエンジニアリング課題を収集し、PyTorch、CUDA、Rust、C++を含む技術スタック全体にわたる機能開発、バグ修正、リファクタリング、診断をカバーしています。

GateNews28分前

英国、銀行のサイバーセキュリティ強化のためにAnthropicのAIに注目

AI業界ニュース

英国は、AI企業Anthropicと連携することで、金融サイバーセキュリティにおける大きな一歩を検討している。初期の協議では、政府がAnthropicの高度なClaude Mythosモデルを銀行や金融機関全体に展開する可能性があることが示唆されている。この動きは、サイバー脅威への防御を改善することを目的としているが

CryptometerIo33分前

中国の知財当局、AI、半導体、ブレイン・コンピューター・インターフェースを保護の迅速化プログラムに追加

AI業界ニュース

Gate Newsメッセージ、4月24日 — 中国の国家知的財産権局（CNIPA）は4月24日、制度改革、強化されたサービス、応用の拡大を通じて、新興技術に対する包括的な知的財産保護を確立すると発表した。管理当局は

GateNews39分前

0/400

コメントなし