Gate News 消息,3 月 17 日,月之暗面發布 Attention Residuals 技術報告,提出用注意力機制取代 Transformer 中固定的殘差連接,在 Kimi Linear 48B 模型上可等效多用 25% 算力、推理延遲增加不到 2%。Elon Musk 昨晚在 X 發文「Impressive work from Kimi」,月之暗面官方今日在微博上回應「你的火箭造得也不錯!」。
這條推文也將討論引向論文的聯合一作之一:陳廣宇(英文名 Nathan),今年 17 歲,目前仍在讀高中。論文另兩名聯合一作為 RoPE(旋轉位置編碼)提出者蘇劍林,以及 Kimi Linear 第一作者張宇。陳廣宇於 2025 年 11 月加入月之暗面,GitHub 上的 Flash Linear Attention 開源項目是他入門機器學習的起點。
陳廣宇本人也在 X 上回應外界討論,稱這樣一篇「算法和 infra codesign,同時實驗和理論都有補充的 paper 是不太可能一個人寫出來的」,Kimi 團隊大家都有投入,Yu Zhang 與蘇劍林也都是 equal contributor,提醒大家「不要相信謠言」。
陳廣宇本人領英主頁顯示,其就讀學校為惠州貝賽思(Basis International Park Lane Harbour)。Moonshot Academy 是 2025 年 3 月舉辦「Moonshot 48」高中生黑客松的主辦方,陳廣宇在該活動中獲得冠軍。