據 1M AI News 監測,美團龍貓團隊開源 LongCat-Next,一個基於 MoE 架構、激活參數 3B 的原生多模態模型,在單一自回歸框架下統一了文本、視覺理解、圖像生成、語音理解和語音合成五種能力。模型及配套分詞器以 MIT 許可證開源,權重已上線 HuggingFace。
LongCat-Next 的核心設計是 DiNA(離散原生自回歸)範式:通過為每種模態設計配對的分詞器和解碼器,將視覺和音頻信號轉化為離散 token,與文本共享同一嵌入空間,用統一的 next-token prediction 完成所有任務。視覺側的關鍵組件 dNaViT(離散原生分辨率 Vision Transformer)將圖像特徵提取為「視覺詞」,支持動態分詞和解碼,在 28 倍壓縮比下仍保持較強的圖像生成質量,尤其在文字渲染方面表現突出。
在同等激活參數量級(A3B)的模型對比中,LongCat-Next 的主要基準表現:
在理解與生成統一模型的橫向對比中,LongCat-Next 的 MMMU 得分 70.6 領先第二名 NEO-unify(68.9),大幅超過 BAGEL(55.3)和 Ovis-U1(51.1)等此前的統一模型方案。SWE-Bench 43.0 和 Tau2 系列工具調用基準的表現也說明,這一多模態統一架構並未犧牲純文本和 Agent 能力。