前 Tesla AI 總監、深度學習領域的重要聲音 Andrej Karpathy 近日在 X 上發文,點出大型語言模型(LLM)的一個根本性問題:記憶和個性化功能不僅沒有讓模型更聰明,反而可能強化一種系統性的「訓練偏差」,讓模型越來越傾向於回答「常見的正確答案」,而非「真正最佳的答案」。
問題核心:LLM 在「回憶」,不在「推理」
Karpathy 提出的論點直接挑戰了 LLM 的運作假設。他指出,訓練資料中的「例子」分佈極不均勻——流行的問題解法、常被討論的答案在訓練資料中反覆出現,而罕見但同樣正確的答案幾乎不存在。
這造成一個根本問題:LLM 在回答問題時,並非真正地「推理」出最佳答案,而是在記憶中搜尋「最常見的正確例子」。換句話說,越是主流、越是被廣泛討論的解法,模型越容易選它,即使有更好、更適合當下情境的選擇存在。
個性化記憶功能的反效果
這個問題在 AI 助理的個性化記憶功能中被進一步放大。當模型記住用戶的偏好、習慣、過去的對話,它所建立的「用戶模型」本質上也是訓練資料分佈的產物——它記住的是「最像這位用戶的常見類型」,而非真正理解這個個體的獨特需求。
這意味著 LLM 的個性化越強,它可能越容易把用戶套入某種「原型」,而非給出真正量身定做的回答。
對 AI 媒體記者的實際影響
這個洞察對使用 AI 輔助工作的人具有直接意義。當你要 AI 分析一個冷門的加密貨幣項目、評估一個非主流的政策立場,或者研究一個較少被討論的技術觀點時,AI 給出的答案可能天然偏向「主流輿論」,而不是客觀的分析。
Karpathy 認為,這個問題目前沒有完美的解法,只能透過更多元化的訓練資料來緩解。但根本性的偏差——「模型傾向於流行答案」——是 LLM 架構的內在特性,而非 bug。
更深的問題:AI 正在複製人類的集體盲點
Karpathy 的觀察指向一個更深刻的隱憂:訓練資料是人類過去寫作的抽樣,不是客觀的知識分佈。這意味著 LLM 不只複製了人類的知識,也複製了人類集體的盲點、偏見,以及對特定「主流敘事」的過度強調。
當 AI 被越來越多地用於新聞分析、投資決策、政策評估,訓練偏差的影響範圍也隨之擴大。這不是一個技術問題,而是一個需要使用者保持批判意識的認知問題。
這篇文章 為什麼 AI 越了解你,給的答案越「主流」?Karpathy 的訓練偏差警告 最早出現於 鏈新聞 ABMedia。