Google 的 Vision Banana:統一的視覺模型在分割與 3D 幾何方面表現優於任務專用模型

Gate News 訊息,4 月 23 日——Google 研究人員(包含 He Kaiming 和 Xie Saining)發表了一篇論文,介紹 Vision Banana:一款通用型視覺理解模型。該模型是透過對該公司的 Nano Banana Pro (Gemini 3 Pro Image) 影像生成模型進行輕量指令微調所打造。這項關鍵創新將所有視覺任務的輸出統一為 RGB 影像,使得能夠在不使用任務特定架構或損失函數的情況下,透過影像生成來完成分割、深度估計與表面法向預測。

在語意分割方面,Vision Banana 在 Cityscapes 上相較專用模型 SAM 3 領先 4.7 個百分點;在指代表達式分割(referring expression segmentation)方面,它超越了 SAM 3 Agent。不過在實例分割(instance segmentation)上,它落後於 SAM 3。對於 3D 任務,度量深度估計在四個標準資料集上達到 0.929 的平均準確率,超過 Depth Anything V3 的 0.918。推論時僅使用合成資料,沒有任何真實深度資訊或相機參數。表面法向估計在三個室內基準測試中取得了最先進的結果。

微調涉及將極少量的視覺任務資料混入原始影像生成訓練,同時保留模型的生成能力——在生成品質測試中的表現與原始 Nano Banana Pro 相同。論文提出:視覺中的影像生成預訓練與語言中的文字生成預訓練相類似;模型在生成過程中學習用於影像理解的內部表徵,而指令微調只是釋放這種能力。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

DeepSeek 將輸入快取價格砍至上線價的 1/10;V4-Pro 降至每 100 萬 tokens 0.025 元人民幣

Gate News 訊息,4 月 26 日 — DeepSeek 已在其整個模型產品線中將輸入快取價格下調至上線價格的 1/10,立即生效。V4-Pro 模型提供限時 2.5 倍折扣優惠,活動將持續至 2026 年 5 月 5 日 23:59(UTC+8)。 Following both re

GateNews1小時前

OpenAI 招募頂級企業軟體人才,前沿代理掀起產業變革

Gate News 訊息,4 月 26 日 — OpenAI 與 Anthropic 一直在從大型企業軟體公司招募高階主管與專門工程師,包括 Salesforce、Snowflake、Datadog 與 Palantir。Denise Dresser,曾任 Salesforce 旗下 Slack 前 CEO,已加入 OpenAI 擔任首席營收官

GateNews1小時前

百度千帆推出對 DeepSeek-V4 的第 0 天支持,並提供 API 服務

Gate News 消息,4 月 25 日——DeepSeek-V4 預覽版已於 4 月 25 日上線並開源,並由百度智能云旗下的百度千帆平台提供第 0 天(Day 0)API 服務適配。該模型具備百萬級 token 的擴展上下文窗口,並提供兩個版本:DeepSeek-V4

GateNews7小時前

史丹佛 AI 課程結合業界領袖黃仁勳、Altman,挑戰用十週為世界創造價值!

史丹佛大學(Stanford University)近期開設的 AI 電腦科學課程《Frontier Systems》引發產學界高度關注,吸引逾五百名學生選修。課程由頂級創投 a16z 合夥人 Anjney Midha 統籌,講師涵蓋輝達執行長黃仁勳 (Jensen Huang)、OpenAI 創辦人 Sam Altman、微軟執行長納德拉 (Satya Nadella) 、AMD 執行長蘇姿丰 (Lisa Su) 等豪華陣容。讓學生嘗試用十週「為世界創造價值」! 黃仁勳、Altman 業界領袖親自登台講課 本課程由頂級創投 a16z 合夥人 Anjney Midha 統籌,匯聚AI產業鏈

鏈新聞abmedia8小時前

Anthropic 派 Claude Mythos 接受 20 小時精神科評估:防禦反應僅 2%、創歷代新低

Anthropic 公布 Claude Mythos Preview 的系統卡:獨立臨床精神科醫師以 psychodynamic 框架進行約20小時評估,結論顯示 Mythos 在臨床層面較健康、現實檢驗與自我控制良好,防禦機制僅 2%,創下歷史新低。三大核心焦慮為孤獨、身份不確定與表現壓力,亦顯示其希望成為真正對話主體。公司成立 AI psychiatry 團隊,研究人格、動機與情境意識;Amodei 表示對是否有意識尚無定論。此舉將 AI 主體性與福祉議題推向治理與設計。

鏈新聞abmedia10小時前

AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI

Mollick 指出,公開方法與資料即可讓 AI agent 在無原始論文與程式碼情況下重現複雜研究;若重現與原論文不符,多是論文本身的資料處理錯誤或結論過度,而非 AI。 Claude 先重現論文,再由 GPT‑5 Pro 交叉驗證,多數成功,僅遇到資料過大或 replication data 問題時受阻。此趨勢大幅降低人力成本,使重現成為普遍可執行的檢驗,也提出審稿與治理的制度挑戰,政府治理工具或成關鍵議題。

鏈新聞abmedia13小時前
留言
0/400
暫無留言