Gate News rapporte qu’en date du 17 mars, Moonshot a publié un rapport technique sur Attention Residuals, proposant de remplacer la connexion résiduelle fixe dans le Transformer par un mécanisme d’attention. Sur le modèle Kimi Linear 48B, cette méthode permet d’économiser l’équivalent de 25 % de puissance de calcul, avec une augmentation de la latence d’inférence inférieure à 2 %. Elon Musk a publié hier soir sur X : « Travail impressionnant de la part de Kimi », et l’équipe officielle de Moonshot a répondu aujourd’hui sur Weibo : « Tu as aussi bien construit ta fusée ! ».
Ce tweet a également orienté la discussion vers l’un des co-auteurs de l’article : Chen Guangyu (nom anglais Nathan), âgé de 17 ans, qui est encore lycéen. Les deux autres co-auteurs de l’article sont Su Jianlin, inventeur de RoPE (encodage de position rotatif), et Zhang Yu, premier auteur de Kimi Linear. Chen Guangyu a rejoint Moonshot en novembre 2025, et le projet open source Flash Linear Attention sur GitHub a été son point de départ pour apprendre le machine learning.
Chen Guangyu a également répondu aux discussions sur X, affirmant qu’un article combinant « algorithmes et co-conception d’infrastructures, avec des expérimentations et des théories complémentaires, est difficile à écrire seul », soulignant que toute l’équipe Kimi a contribué, et que Yu Zhang et Su Jianlin sont tous deux des contributeurs égaux, en rappelant à tous « de ne pas croire aux rumeurs ».
Son profil LinkedIn indique qu’il étudie à Basis International Park Lane Harbour à Huizhou. Moonshot Academy a organisé en mars 2025 le hackathon « Moonshot 48 » pour lycéens, où Chen Guangyu a remporté la première place.