美團開源LongCat-Next:3B參數統一視覺理解、生成與語音

区块律动

據 1M AI News 監測,美團龍貓團隊開源 LongCat-Next,一個基於 MoE 架構、激活參數 3B 的原生多模態模型,在單一自回歸框架下統一了文本、視覺理解、圖像生成、語音理解和語音合成五種能力。模型及配套分詞器以 MIT 許可證開源,權重已上線 HuggingFace。

LongCat-Next 的核心設計是 DiNA(離散原生自回歸)範式:通過為每種模態設計配對的分詞器和解碼器,將視覺和音頻信號轉化為離散 token,與文本共享同一嵌入空間,用統一的 next-token prediction 完成所有任務。視覺側的關鍵組件 dNaViT(離散原生分辨率 Vision Transformer)將圖像特徵提取為「視覺詞」,支持動態分詞和解碼,在 28 倍壓縮比下仍保持較強的圖像生成質量,尤其在文字渲染方面表現突出。

在同等激活參數量級(A3B)的模型對比中,LongCat-Next 的主要基準表現:

  1. 視覺理解:MMMU-Pro 60.3(Qwen3-Omni 57.0,GPT5-minimal 62.7),MathVista 83.1(Qwen3-Omni 75.9,GPT5-minimal 50.9),MathVision 64.7(領先所有對比模型),DocVQA 94.2
  2. 圖像生成:GenEval 84.44,LongText-EN 93.15(FLUX.1-dev 60.70,Emu-3.5 97.60)
  3. 編程:SWE-Bench 43.0(Kimi-Linear-48B 32.8,Qwen3-Next-80B 37.6)
  4. Agent 工具調用:Tau2-Retail 73.68(Qwen3-Next 57.3),Tau2-Telecom 62.06(Qwen3-Next 13.2)

在理解與生成統一模型的橫向對比中,LongCat-Next 的 MMMU 得分 70.6 領先第二名 NEO-unify(68.9),大幅超過 BAGEL(55.3)和 Ovis-U1(51.1)等此前的統一模型方案。SWE-Bench 43.0 和 Tau2 系列工具調用基準的表現也說明,這一多模態統一架構並未犧牲純文本和 Agent 能力。

查看原文
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言