Các mô hình lớn hàng đầu thế giới, không thể vượt qua 《Bảo Bối Vương》: Những trò chơi này đều là cơn ác mộng của AI

動區BlockTempo

Dù các mô hình AI hàng đầu toàn cầu có thể xuất sắc trong các kỳ thi y học, lập trình phức tạp, thậm chí đánh bại các chuyên gia trong các cuộc thi toán học, nhưng lại liên tục thất bại trong trò chơi trẻ em như 《Pokémon》, phơi bày những điểm yếu cốt lõi về khả năng suy luận dài hạn, ghi nhớ và lập kế hoạch của chúng. Bài viết này xuất phát từ tài khoản công cộng Tencent Technology, tác giả là Guo Jingxiao.
(Trước đó: Tôi dùng AI chơi game chiến tranh: GPT o3 là ông trùm mưu mô, DeepSeek là kẻ điên chiến tranh, Claude thì như một cô gái ngây thơ)
(Bổ sung nền: Google “Gemini 2.0” đã đến rồi! Ra mắt ba loại AI đại lý: nhiệm vụ phức tạp, trò chơi, lập trình)

Mục lục bài viết

  • Kho toolset quyết định thành bại?
  • Trò chơi theo lượt phơi bày điểm yếu “ghi nhớ dài hạn” của AI
  • Phía sau sự tiến bộ năng lực: khoảng cách “bản năng” chưa vượt qua
  • Con đường “chinh phục kỹ thuật số” của AI còn xa, không chỉ 《Pokémon》
    • 《NetHack》: vực thẳm của quy tắc
    • 《Minecraft》: mất đi cảm giác mục tiêu
    • 《StarCraft II》: khoảng cách giữa tổng quát và chuyên môn
    • 《Passenger Tycoon》: mất cân bằng vi mô và vĩ mô
    • 《Elden Ring》 và 《Sekiro》: khoảng cách phản hồi vật lý
  • Tại sao 《Pokémon》 trở thành thử thách của AI?

Các mô hình AI hàng đầu thế giới có thể vượt qua kỳ thi cấp phép y tế, viết mã phức tạp, thậm chí đánh bại các chuyên gia trong các cuộc thi toán học, nhưng lại liên tục thất bại trong trò chơi trẻ em 《Pokémon》.

Nỗ lực đáng chú ý này bắt đầu từ tháng 2 năm 2025, khi một nhà nghiên cứu của Anthropic phát sóng trực tiếp trên Twitch về “Claude chơi 《Pokémon Red》”, nhằm phối hợp với ra mắt Claude Sonnet 3.7.

Hàng nghìn khán giả đã đổ vào phòng phát trực tiếp. Trong phần trò chuyện công khai, khán giả góp ý, cổ vũ, khiến buổi phát trở thành một cuộc quan sát công khai về khả năng của AI.

Sonnet 3.7 chỉ mới “biết chơi” 《Pokémon》, nhưng “biết chơi” chưa hẳn là “có thể thắng”. Nó thường bị mắc kẹt hàng chục giờ tại các điểm then chốt, thậm chí mắc những lỗi sơ đẳng mà cả trẻ em chơi game cũng không phạm phải.

Đây không phải lần đầu Claude thử sức.

Phiên bản trước đó còn tệ hơn nhiều: có cái đi lang thang vô mục đích trên bản đồ, có cái rơi vào vòng lặp vô hạn, thậm chí không thể thoát khỏi làng mới.

Ngay cả Claude Opus 4.5, đã nâng cao rõ rệt năng lực, vẫn mắc những sai lầm khó hiểu. Có lần, nó đi vòng quanh “ngoài phòng đấu” suốt bốn ngày, mãi không vào được, nguyên nhân chỉ là không nhận thức được cần phải chặt đổ một cây chắn đường.

Một trò chơi trẻ em, tại sao lại trở thành thất bại của AI?

Bởi vì 《Pokémon》 đòi hỏi chính xác những khả năng mà AI hiện nay còn thiếu: liên tục suy luận trong thế giới mở không rõ ràng, ghi nhớ các quyết định từ vài giờ trước, hiểu các mối quan hệ nhân quả ngầm, lập kế hoạch dài hạn trong hàng trăm hành động có thể.

Những việc này đối với trẻ 8 tuổi là chuyện dễ như trở bàn tay, nhưng đối với các mô hình AI tự xưng “vượt qua con người” lại là một khoảng cách không thể vượt qua.

Kho toolset quyết định thành bại?

So sánh, Gemini 2.5 Pro của Google đã thành công vượt qua một trò chơi 《Pokémon》 có độ khó tương đương vào tháng 5 năm 2025. CEO Google Sundar Pichai còn đùa rằng, công ty đã tiến một bước trong việc xây dựng “trí tuệ Pokémon nhân tạo”.

Tuy nhiên, kết quả này không thể đơn giản quy về việc mô hình Gemini “thông minh hơn”.

Điểm khác biệt chính nằm ở bộ công cụ mà mô hình sử dụng. Nhà phát triển độc lập Joel Zhang, người vận hành livestream 《Pokémon》 của Gemini, ví bộ công cụ như một bộ “giáp sắt Iron Man”: AI không vào game trong trạng thái tay không, mà được đặt trong một hệ thống có thể gọi nhiều khả năng bên ngoài.

Bộ công cụ của Gemini cung cấp nhiều hỗ trợ hơn, ví dụ chuyển đổi hình ảnh trò chơi thành văn bản để bù đắp điểm yếu về hiểu thị giác, đồng thời cung cấp các công cụ tùy chỉnh để giải đố và lập kế hoạch đường đi. Ngược lại, bộ công cụ của Claude đơn giản hơn nhiều, phản ánh trực tiếp năng lực cảm nhận, suy luận và thực thi của mô hình.

Trong các nhiệm vụ hàng ngày, sự khác biệt này không rõ ràng.

Khi người dùng yêu cầu chatbot truy vấn qua internet, mô hình cũng tự động gọi công cụ tìm kiếm. Nhưng trong các nhiệm vụ dài hạn như 《Pokémon》, sự khác biệt về bộ công cụ lại được phóng đại đến mức quyết định thành bại.

Trò chơi theo lượt phơi bày điểm yếu “ghi nhớ dài hạn” của AI

Vì 《Pokémon》 sử dụng chế độ theo lượt nghiêm ngặt, không cần phản ứng tức thì, nó trở thành “sân tập luyện” lý tưởng để thử nghiệm AI. Trong mỗi bước, AI chỉ cần dựa vào hình ảnh hiện tại, gợi ý mục tiêu và các thao tác có thể để suy luận, rồi xuất ra lệnh rõ ràng như “ấn A”.

Điều này dường như là dạng tương tác mà các mô hình ngôn ngữ lớn (LLMs) rất giỏi.

Vấn đề nằm ở “khoảng cách” về thời gian. Dù Claude Opus 4.5 đã chạy hơn 500 giờ, thực hiện khoảng 170.000 bước, nhưng do mỗi bước đều phải khởi động lại, mô hình chỉ có thể tìm kiếm trong một khung ngữ cảnh cực hẹp. Cơ chế này khiến nó giống như một người mất trí nhớ, dựa vào ghi chú để duy trì nhận thức, lặp đi lặp lại trong đống thông tin rời rạc, mãi không thể vượt qua trải nghiệm từ lượng biến thành chất lượng như con người thật.

Trong các lĩnh vực như cờ vua, cờ vây, AI đã vượt qua con người, nhưng các hệ thống này đều được tùy biến cao cho từng nhiệm vụ. Ngược lại, Gemini, Claude và GPT, như các mô hình tổng quát, dù thường thắng các con người trong thi cử, lập trình, thi đấu, lại liên tục thất bại trong trò chơi dành cho trẻ em.

Sự đối lập này chính là một bài học sâu sắc.

Theo Joel Zhang, thách thức cốt lõi của AI là không thể duy trì thực hiện một mục tiêu rõ ràng trong thời gian dài. “Nếu bạn muốn trí tuệ nhân tạo làm việc thực sự, nó không thể quên những gì đã làm năm phút trước,” ông nhấn mạnh.

Và khả năng này chính là tiền đề không thể thiếu để tự động hóa các công việc nhận thức.

Nhà nghiên cứu độc lập Peter Whidden mô tả rõ hơn: ông từng mở mã nguồn một thuật toán 《Pokémon》 dựa trên AI truyền thống. “AI gần như biết tất cả về 《Pokémon》,” ông nói, “Nó được huấn luyện trên lượng dữ liệu khổng lồ của con người, rõ ràng biết đáp án đúng. Nhưng khi đến giai đoạn thực thi, lại tỏ ra vụng về đến mức khó tin.”

Trong trò chơi, khoảng cách “biết nhưng không làm được” này ngày càng rõ rệt: mô hình có thể biết cần tìm một vật phẩm nào đó, nhưng không thể định vị ổn định trên bản đồ 2D; biết phải nói chuyện với NPC, nhưng trong di chuyển pixel-by-pixel lại thất bại liên tục.

Phía sau sự tiến bộ năng lực: khoảng cách “bản năng” chưa vượt qua

Dù vậy, tiến bộ của AI vẫn rõ rệt. Claude Opus 4.5 rõ ràng hơn các thế hệ trước về khả năng tự ghi chép và hiểu thị giác, giúp tiến xa hơn trong trò chơi. Gemini 3 Pro sau khi vượt qua 《Pokémon X》 còn hoàn thành 《Pokémon Crystal》 với độ khó cao hơn, toàn trận không thua một lần nào. Đây là điều Gemini 2.5 Pro chưa từng làm được.

Cùng lúc đó, Claude Code của Anthropic cho phép mô hình viết và chạy mã của chính nó, đã được dùng để chơi các trò chơi cổ điển như 《Passenger Tycoon》, và được cho là có thể quản lý thành công một công viên chủ đề ảo.

Những ví dụ này tiết lộ một thực tế không trực quan: AI được trang bị bộ công cụ phù hợp có thể thể hiện hiệu quả cực cao trong các công việc kiến thức như phát triển phần mềm, kế toán, phân tích pháp lý, dù vẫn còn khó khăn trong các nhiệm vụ đòi hỏi phản ứng tức thì.

Thử nghiệm 《Pokémon》 còn hé lộ một hiện tượng thú vị khác: các mô hình huấn luyện trên dữ liệu của con người sẽ thể hiện đặc điểm hành vi gần như của con người.

Trong báo cáo kỹ thuật của Gemini 2.5 Pro, Google chỉ ra rằng, khi hệ thống mô phỏng “trạng thái hoảng loạn”, như Pokémon sắp ngất xỉu, khả năng suy luận của mô hình sẽ giảm rõ rệt.

Và khi Gemini 3 Pro cuối cùng vượt qua 《Pokémon X》, nó để lại một ghi chú không bắt buộc cho nhiệm vụ: “Để kết thúc một cách thơ mộng, tôi muốn trở về nhà ban đầu, nói chuyện lần cuối với mẹ, để nhân vật nghỉ hưu.”

Theo Joel Zhang, hành động này khiến ông bất ngờ, còn mang đậm cảm xúc kiểu con người.

AI khó vượt qua “chinh phục kỹ thuật số”, còn xa hơn 《Pokémon》

《Pokémon》 không phải là trường hợp duy nhất. Trên con đường hướng tới trí tuệ nhân tạo tổng quát (AGI), các nhà phát triển nhận ra rằng, dù AI có thể đứng đầu các kỳ thi pháp lý, khi đối mặt với các loại trò chơi phức tạp sau đây, vẫn gặp phải những thất bại không thể vượt qua.

《NetHack》: vực thẳm của quy tắc

Trò chơi dungeon của thập niên 80 này là “ác mộng” của giới nghiên cứu AI. Nó có tính ngẫu nhiên cao và có cơ chế “chết vĩnh viễn”. Facebook AI Research phát hiện rằng, dù mô hình có thể viết mã, nhưng trước 《NetHack》 yêu cầu kiến thức thông thường và lập kế hoạch dài hạn, hiệu suất còn kém xa người mới bắt đầu.

《Minecraft》: mất đi cảm giác mục tiêu

Dù AI đã có thể chế tạo cuốc gỗ, thậm chí đào kim cương, nhưng “đánh bại Ender Dragon” vẫn còn là điều viễn tưởng. Trong thế giới mở, AI thường quên mục tiêu trong hàng chục giờ thu thập tài nguyên, hoặc lạc lối trong các đường đi phức tạp.

《StarCraft II》: khoảng cách giữa tổng quát và chuyên môn

Dù các mô hình tùy biến đã đánh bại các tuyển thủ chuyên nghiệp, nhưng nếu để Claude hoặc Gemini trực tiếp điều khiển qua lệnh thị giác, chúng sẽ sụp đổ ngay lập tức. Trong xử lý “mây chiến tranh” và cân bằng giữa thao tác nhỏ và xây dựng chiến lược lớn, các mô hình tổng quát vẫn còn bất lực.

《Passenger Tycoon》: mất cân bằng vi mô và vĩ mô

Quản lý công viên giải trí đòi hỏi theo dõi hàng nghìn khách tham quan. Ngay cả Claude Code có khả năng quản lý ban đầu, cũng dễ mệt mỏi khi xử lý các cuộc khủng hoảng tài chính lớn hoặc tai nạn đột xuất. Mỗi lần mất tập trung suy luận, đều có thể dẫn đến phá sản công viên.

《Elden Ring》 và 《Sekiro》: khoảng cách phản hồi vật lý

Các trò chơi hành động mạnh mẽ này cực kỳ không thân thiện với AI. Hiện tại, độ trễ phân tích hình ảnh khiến AI còn đang “suy nghĩ” về hành động của Boss, thì nhân vật đã chết rồi. Yêu cầu phản ứng trong mili giây, tạo thành giới hạn tự nhiên cho logic tương tác của mô hình.

Tại sao 《Pokémon》 trở thành thử thách của AI?

Hiện nay, 《Pokémon》 đang dần trở thành một tiêu chuẩn thử nghiệm không chính thức nhưng rất thuyết phục trong lĩnh vực đánh giá AI.

Các mô hình của Anthropic, OpenAI và Google trên Twitch thu hút hàng trăm nghìn bình luận. Trong báo cáo kỹ thuật, Google ghi rõ tiến trình chơi của Gemini, Pichai còn đề cập công khai tại hội nghị I/O. Anthropic thậm chí còn thiết lập khu trưng bày “Claude chơi Pokémon” tại các hội thảo ngành.

“Chúng tôi là nhóm những người đam mê công nghệ cực kỳ,” Giám đốc AI của Anthropic, David Hershey, thừa nhận. Nhưng ông nhấn mạnh, đây không chỉ là giải trí.

Khác với các tiêu chuẩn truyền thống dạng hỏi đáp một lần, 《Pokémon》 cho phép theo dõi liên tục quá trình suy luận, quyết định và tiến trình mục tiêu của mô hình trong thời gian dài, gần hơn với các nhiệm vụ phức tạp mà con người mong muốn AI thực hiện trong thực tế.

Cho đến nay, thử thách của AI trong 《Pokémon》 vẫn còn tiếp diễn. Nhưng chính những khó khăn lặp đi lặp lại này đã rõ ràng vạch ra các giới hạn năng lực mà trí tuệ nhân tạo tổng quát vẫn chưa vượt qua.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận