Googleの Vision Banana:統合型ビジョンモデルが、セグメンテーションと3Dジオメトリにおいてタスク特化モデルを上回る

ゲートニュースのメッセージ、4月23日 — Googleの研究者、He Kaiming と Xie Saining を含むが、Vision Banana を紹介する論文を発表した。Vision Banana は、同社の Nano Banana Pro (Gemini 3 Pro Image) の画像生成モデルを対象に、軽量な指示(インストラクション)のファインチューニングを行って作られた汎用の視覚理解モデル。主な革新は、すべての視覚タスクの出力をRGB画像として統一し、タスク固有のアーキテクチャや損失関数を使わずに画像生成によってセグメンテーション、奥行き推定、表面法線の予測を可能にする点にある。

意味セグメンテーションでは、Vision Banana は Cityscapes で専門モデル SAM 3 を 4.7 パーセントポイント上回った。指示表現セグメンテーションでは、SAM 3 Agent を上回った。だが、インスタンスセグメンテーションでは SAM 3 に遅れをとった。3D タスクでは、指標となる奥行き推定で、4つの標準データセット全体にわたり平均精度 0.929 を達成し、推論時に実際の奥行き情報やカメラパラメータを使わず、合成データのみで Depth Anything V3 の 0.918 を上回った。表面法線推定は、3つの屋内ベンチマークで最先端の結果を達成した。

ファインチューニングでは、元の画像生成学習に最小限の視覚タスクデータを混ぜるだけで、モデルの生成能力を維持した。生成品質テストでは、性能は元の Nano Banana Pro と一致した。論文は、視覚における画像生成の事前学習は、言語におけるテキスト生成の事前学習と並行していると提案する。つまり、モデルは生成中に画像理解に必要な内部表現を学び、指示のファインチューニングはその能力を解放するだけだという。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

Anthropic が Claude Mythos を 20 時間精神科評価:防御反応はわずか 2%で、歴代最低を更新

Anthropic は Claude Mythos Preview のシステムカードを公開:独立した臨床精神科医が psychodynamic の枠組みで約20時間評価し、結論は Mythos が臨床面でより健康で、現実検討と自己コントロールが良好であることを示した。防衛機制はわずか 2% にとどまり、歴史的な新低水準を記録した。3つの中核となる不安は孤独、アイデンティティの不確実性、パフォーマンスへのプレッシャーであり、またそれが本当の対話の主体になりたいという希望も示している。同社は AI psychiatry チームを設立し、人格、動機、状況意識を研究している;Amodei は意識があるかどうかについてはまだ定論がないと述べた。今回の取り組みは、AI の主体性と福祉の論点をガバナンスと設計へと押し進める。

ChainNewsAbmedia47分前

AIエージェントは、複雑な学術論文を独力で再現できるようになっている:Mollickは、誤りはAIではなく人間の原文に多いと述べている

Mollick は、公開された手法とデータだけで、AI agent が元の論文やコードがない状況でも複雑な研究を再現できると指摘している。再現が原論文と一致しない場合は、多くの場合 AI ではなく、論文自体のデータ処理の誤り、または結論の過度な解釈によるものだという。Claude はまず論文を再現し、その後 GPT‑5 Pro によるクロス検証を行い、多くは成功するが、データが大きすぎる場合や replication data の問題がある場合には阻まれることがある。この傾向は人力コストを大幅に下げ、再現が一般的に実行可能な検証となり得ることを示すとともに、査読やガバナンスの制度上の課題も提起しており、政府のガバナンスツール、あるいはそれに関連する事項が重要な論点となっている。

ChainNewsAbmedia3時間前

OpenAI、GPT-5.4を起点にCodexをメインモデルに統合し、独立したコーディング系統を終了

Gate News メッセージ、4月26日—OpenAIの開発者エクスペリエンス責任者ロマン・ユエ(Romain Huet)が、Xでの最近の声明の中で、同社が独立して保守してきた専用のコーディングモデル系列であるCodexが、GPT-5.4からメインモデルに統合され、今後は別個の

GateNews3時間前

SalesforceがAIプロダクト向けに卒業生・インターン1,000人を採用し、FY2026の売上高見通しを引き上げ

ゲートニュース、4月26日 — Salesforceは、AIソフトウェア事業を拡大する中で、AgentforceやHeadless360を含むAIプロダクトに取り組むために、卒業生およびインターンを1,000人採用すると発表した。CEOのMarc BenioffがXで明らかにした。 同社はまた、2026会計年度の売上高見通しを、US$41.45 bからUS$41.55 bの範囲へと引き上げた

GateNews3時間前

Alibaba Cloudが統合型のテキストから画像生成と編集を搭載したQwen-Image-2.0-Proを発表、多言語テキスト表示に対応

Gate Newsのメッセージ、4月26日 — Alibaba Cloud Bailianプラットフォームは、テキストから画像生成と画像編集を単一モデルで統合した、Qwen-Image-2.0シリーズの高機能版であるQwen-Image-2.0-Proをリリースしました。ユーザーは、自然言語コマンドを通じてツールを切り替えることなく、オブジェクト、テキスト、スタイルを直接変更できます。

GateNews5時間前

DeepSeek V4-Pro APIが5月5日まで75%割引、出力価格は100万トークンあたり$0.87に低下

Gateニュースメッセージ、4月26日 — DeepSeekはV4-Pro API料金に期間限定で75%の割引を発表し、5月5日15:59 UTCまで有効です。割引後の100万トークンあたりの料金は:入力キャッシュヒット $0.03625

GateNews6時間前
コメント
0/400
コメントなし