美團開源LongCat-Next：3B參數統一視覺理解、生成與語音

区块律动

2026-03-26 01:51:32

據 1M AI News 監測，美團龍貓團隊開源 LongCat-Next，一個基於 MoE 架構、激活參數 3B 的原生多模態模型，在單一自回歸框架下統一了文本、視覺理解、圖像生成、語音理解和語音合成五種能力。模型及配套分詞器以 MIT 許可證開源，權重已上線 HuggingFace。

LongCat-Next 的核心設計是 DiNA（離散原生自回歸）範式：通過為每種模態設計配對的分詞器和解碼器，將視覺和音頻信號轉化為離散 token，與文本共享同一嵌入空間，用統一的 next-token prediction 完成所有任務。視覺側的關鍵組件 dNaViT（離散原生分辨率 Vision Transformer）將圖像特徵提取為「視覺詞」，支持動態分詞和解碼，在 28 倍壓縮比下仍保持較強的圖像生成質量，尤其在文字渲染方面表現突出。

在同等激活參數量級（A3B）的模型對比中，LongCat-Next 的主要基準表現：

視覺理解：MMMU-Pro 60.3（Qwen3-Omni 57.0，GPT5-minimal 62.7），MathVista 83.1（Qwen3-Omni 75.9，GPT5-minimal 50.9），MathVision 64.7（領先所有對比模型），DocVQA 94.2
圖像生成：GenEval 84.44，LongText-EN 93.15（FLUX.1-dev 60.70，Emu-3.5 97.60）
編程：SWE-Bench 43.0（Kimi-Linear-48B 32.8，Qwen3-Next-80B 37.6）
Agent 工具調用：Tau2-Retail 73.68（Qwen3-Next 57.3），Tau2-Telecom 62.06（Qwen3-Next 13.2）

在理解與生成統一模型的橫向對比中，LongCat-Next 的 MMMU 得分 70.6 領先第二名 NEO-unify（68.9），大幅超過 BAGEL（55.3）和 Ovis-U1（51.1）等此前的統一模型方案。SWE-Bench 43.0 和 Tau2 系列工具調用基準的表現也說明，這一多模態統一架構並未犧牲純文本和 Agent 能力。

查看原文

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言