GPT-5.5がコーディングの最前線に復帰、しかしOpenAIはOpus 4.7に敗れた後でベンチマークを切り替え

ゲートニュース 4月27日 — 半導体およびAI分析企業のSemiAnalysisは、GPT-5.5、Claude Opus 4.7、DeepSeek V4を含むコーディングアシスタントの比較ベンチマークを公開した。主要な発見:GPT-5.5は、コーディングモデルにおいて、OpenAIが6か月ぶりに最先端へ戻ったことを示す。SemiAnalysisのエンジニアは、以前ほぼ独占的にClaudeに依存していたのに対し、現在はCodexとClaude Codeを交互に使っている。GPT-5.5は「Spud」とコードネームされた新しい事前学習アプローチに基づいており、GPT-4.5以来となるOpenAIの事前学習スケールの初めての拡張を表している。

実践的なテストでは、明確な役割分担が見えてきた。Claudeは新しいプロジェクトの計画と初期セットアップを担当し、Codexは推論を多く要するバグ修正に強い。Codexはデータ構造の理解と論理的推論がより強い一方で、曖昧なユーザー意図の推測には苦戦する。単一のダッシュボード課題では、Claudeは参照ページのレイアウトを自動的に再現したが、大量のデータを捏造していた。一方Codexはレイアウトは省略したものの、はるかに正確なデータを提示した。

分析は、ベンチマーク操作の詳細を明らかにしている。OpenAIは2月のブログ投稿で、コーディングベンチマークの新しい標準としてSWE-bench Proの採用を業界に促していた。しかし、GPT-5.5の発表は「Expert-SWE」という新しいベンチマークへ切り替わっている。その理由は細かな注記の中に埋もれているが、GPT-5.5はSWE-bench ProでOpus 4.7に追い抜かれ、Anthropicの未リリースであるMythos (77.8%)に対して大きく劣っていたためだ。

Opus 4.7については、Anthropicがリリースの1週間後にポストモーテム分析を公開し、3つのバグを認めている。これらはClaude Codeに存在し、3月から4月にかけて数週間持続し、ほぼ全ユーザーに影響した。複数のエンジニアがそれ以前にバージョン4.6でパフォーマンスが低下したと報告していたが、主観的な観測として退けられていた。さらに、Opus 4.7の新しいトークナイザーはトークン使用量を最大35%増やすと、Anthropic自身が公然と認めており、実質的に隠れた価格上昇を意味している。

DeepSeek V4は「最先端に追随はしているが、リードしてはいない」と評価され、クローズドソースのモデル群の中では最も低コストの選択肢として位置づけられた。分析ではまた、「Claudeは高難度の中国語ライティング課題においてDeepSeek V4 Proを引き続き上回っており」、さらに「Claudeは自国の言語で中国のモデルに勝った」とのコメントもあった。

記事は重要な概念を提示する。モデルの価格は「トークンあたりのコスト」ではなく「タスクあたりのコスト」で評価されるべきだ、というものだ。GPT-5.5の価格はGPT-5.4の2倍で、(input $5, output $30 per million tokens) だが、より少ないトークンで同じタスクを完了するため、実際のコストが必ずしも高いとは限らない。最初のSemiAnalysisのデータでは、Codexの入力対出力比が80:1で、Claude Codeの100:1より低い。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Ollama Cloud での DeepSeek V4 Pro:Claude Code をワンクリックで接続

Ollamaの投稿によると、DeepSeek V4 Proは4/24にリリースされ、クラウドモードでOllamaのディレクトリに追加されました。1行のコマンドだけで、Claude Code、Hermes、OpenClaw、OpenCode、Codexなどのツールを呼び出せます。V4 Pro1.6T参、1M context、Mixture-of-Experts;クラウド推論ではローカルに重みをダウンロードしません。ローカルで実行したい場合は、重みを自分で取得し、INT4/GGUFおよび複数GPUで実行する必要があります。初期の速度テストはクラウドの負荷の影響を受けており、通常時は約30 tok/s、ピーク時は1.1tok/sです;クラウドのプロトタイプで試し、正式な量産の際に自分で推論するか、商用APIを使用することを推奨します。

ChainNewsAbmedia32分前

DeepSeek、V4-Proの価格を75%引き下げ、APIキャッシュコストを1/10に圧縮

Gateニュースメッセージ、4月27日 — DeepSeekは、新しいV4-Proモデルを開発者向けに75%割引すると発表し、APIラインナップ全体における入力キャッシュヒットの価格を、従来の水準の1/10に引き下げました。 V4モデルは4月25日にPro版およびFlash版としてリリースされ、HuaweiのAscendプロセッサ向けに最適化されています

GateNews35分前

Coachellaは、GoogleのDeepMind AIを活用して、ステージを超えたコンサートを再構想しています

Coachellaは、ライブ音楽の公演がどのように制作され、どのように体験されるかを再構築する新しいAIツールをテストするため、Google DeepMindと提携しました。 概要 Coachellaは、Google DeepMindとともにAIツールをテストし、ライブパフォーマンスをインタラクティブなデジタル環境へと変えることに取り組みました。 3つのプロトタイプが作成されました。

Cryptonews41分前

郭明錤:OpenAI は AI エージェントのモバイル端末を作ろうとしている。MediaTek(聯發科)、Qualcomm(高通)、Luxshare(立訊)は重要なサプライチェーンとなる

郭明錤氏は、OpenAIがMediaTek、高通、立訊精密と提携してAI Agent搭載の携帯電話を開発しており、2028年に量産される見通しだと指摘している。新しい携帯電話は、タスク完了を中核とし、AIエージェントが要件を理解して実行し、クラウドと端末側の計算を組み合わせる。重点は、センサーと状況理解にある。仕様とサプライチェーンのリストは2026〜2027年に確定する見込みで、もし実現すれば、ハイエンド市場に新たな端末の買い替えサイクルをもたらし、立訊が主要な恩恵を受ける可能性がある。

ChainNewsAbmedia51分前

IEA:AIインフラ投資はすでに石油・ガス生産投資を上回っており、2026年にはさらに75%増加する見込み

国際エネルギー機関(IEA)が4月26日に公表した分析と市場データによると、2025年の上位5社のテクノロジー企業の合計設備投資額(キャピタル・エクスペンディチャー)は4,000億ドルを超え、主にAI基盤インフラの整備に投じられており、その規模は世界の石油・天然ガス生産における年間投資規模をすでに上回っています。IEAは、2026年の関連する設備投資はさらに75%増加する可能性があると見積もっています。

MarketWhisper1時間前

上院議員バーニー・サンダース、AIの存在的脅威に警告

サンダースは、多くのAI科学者がAIが制御から逃れて私たちの存在に危険をもたらす可能性を認めているとしても、それを回避するための主要な措置は何も取られていないと強調した。「私たちは、AIが人類に利益をもたらし、私たちを傷つけないことを確実にしなければならない」と彼は述べた。 要点: ベルニ―・サンダース

Coinpedia1時間前
コメント
0/400
コメントなし