Các mô hình lớn hàng đầu thế giới, không thể vượt qua 《Bảo Bảo Vương》: Những trò chơi này đều là cơn ác mộng của AI

PANews

Tác giả: Guo Xiaojing, Tencent Technology

Biên tập viên |

Các mô hình AI hàng đầu thế giới có thể vượt qua các kỳ thi cấp phép y tế, viết mã phức tạp và thậm chí đánh bại các chuyên gia con người trong các cuộc thi toán học, nhưng Pokémon đã nhiều lần thất bại trong trò chơi dành cho trẻ em.

Nỗ lực cao cấp này bắt đầu vào tháng 2 năm 2025 khi một nhà nghiên cứu của Anthropic tung ra một luồng Twitch về “Claude chơi Pokémon Red” trùng với việc phát hành Claude Sonnet 3.7.

2.000 khán giả đổ về phòng phát sóng trực tiếp. Trong khu vực trò chuyện công khai, người xem đã đưa ra lời khuyên và cổ vũ cho Claude, biến buổi phát trực tiếp thành một quan sát công khai về khả năng của AI.

Sonet3.7 chỉ có thể nói là “có thể chơi” “Pokémon”, nhưng “biết cách chơi” không có nghĩa là “chiến thắng”. Nó bị mắc kẹt hàng chục giờ vào những thời điểm quan trọng và mắc phải những sai lầm cấp thấp mà ngay cả những người chơi nhí cũng không mắc phải.

Đây không phải là lần đầu tiên Claude thử nó.

Các phiên bản đầu tiên thậm chí còn thảm khốc hơn: một số lang thang không mục đích xung quanh bản đồ, những phiên bản khác rơi vào một vòng lặp vô hạn và nhiều người thậm chí không thể thoát ra khỏi ngôi làng mới vào nghề.

Ngay cả Claude Opus 4.5, có khả năng được cải thiện đáng kể, vẫn có những sai lầm khó hiểu. Một lần, nó đi vòng quanh “bên ngoài phòng tập thể dục” trong bốn ngày, nhưng nó không bao giờ vào được, đơn giản vì nó không nhận ra rằng nó cần phải chặt một cái cây chặn ngã tư.

Tại sao một trò chơi dành cho trẻ em lại trở thành Waterloo của AI?

Bởi vì “Pokémon” đòi hỏi chính xác khả năng mà AI thiếu nhất hiện nay: suy luận liên tục trong một thế giới mở mà không có hướng dẫn rõ ràng, ghi nhớ các quyết định được đưa ra hàng giờ trước, hiểu các mối quan hệ nhân quả ngầm và lập kế hoạch dài hạn trong số hàng trăm hành động có thể xảy ra.

Những điều này dễ dàng đối với trẻ 8 tuổi, nhưng chúng là một khoảng cách không thể vượt qua đối với các mô hình AI tuyên bố “vượt qua con người”.

01 Khoảng cách bộ công cụ quyết định thành công hay thất bại?

Ngược lại, Gemini 2.5 Pro của Google đã đánh bại thành công một trò chơi Pokémon tương đối khó vào tháng 5 năm 2025. Giám đốc điều hành Google Sundar Pichai thậm chí còn nửa đùa nửa đùa trước công chúng rằng công ty đã thực hiện một bước hướng tới việc tạo ra “trí tuệ Pokémon nhân tạo”.

Tuy nhiên, kết quả này không thể chỉ đơn giản là do bản thân mẫu Gemini “thông minh” hơn.

Sự khác biệt chính nằm ở bộ công cụ được sử dụng bởi mô hình. Joel Zhang, một nhà phát triển độc lập điều hành livestream Pokémon của Gemini, đã so sánh bộ công cụ này với một bộ “áo giáp Iron Man”: AI không tham gia trò chơi tay không, mà được đặt trong một hệ thống có thể kêu gọi nhiều khả năng bên ngoài.

Bộ công cụ của Gemini cung cấp hỗ trợ bổ sung, chẳng hạn như phiên âm cảnh quay trò chơi thành văn bản, bù đắp cho điểm yếu của mô hình trong khả năng hiểu trực quan và cung cấp các công cụ lập kế hoạch đường đi và giải câu đố tùy chỉnh. Ngược lại, Claude sử dụng một bộ công cụ tối giản hơn, phản ánh trực tiếp hơn khả năng thực sự của mô hình trong nhận thức, suy luận và thực hiện.

Trong các công việc hàng ngày, sự khác biệt này không đáng chú ý.

Khi người dùng đưa ra yêu cầu đến chatbot về truy vấn trực tuyến, mô hình cũng sẽ tự động gọi công cụ tìm kiếm. Nhưng trong các nhiệm vụ dài hạn như Pokémon, sự khác biệt về bộ công cụ đủ lớn để tạo ra hoặc phá vỡ nó.

02 Hệ thống theo lượt phơi bày những thiếu sót của “trí nhớ dài hạn” của AI

Bởi vì Pokémon hoàn toàn theo lượt và không yêu cầu phản ứng tức thì, nó là một “nơi huấn luyện” tuyệt vời để thử nghiệm AI. Trong mỗi bước của thao tác, AI chỉ cần kết hợp hình ảnh hiện tại, lời nhắc mục tiêu và các thao tác tùy chọn để suy luận, đồng thời có thể xuất ra các hướng dẫn rõ ràng như ‘nhấn phím A’.

Đây dường như là hình thức tương tác mà các mô hình ngôn ngữ lớn giỏi nhất.

Điểm mấu chốt của vấn đề nằm chính xác ở “lỗi” của chiều thời gian. Mặc dù Claude Opus 4.5 đã tích lũy được hơn 500 giờ hoạt động và thực hiện khoảng 170.000 bước, mô hình chỉ có thể tìm thấy manh mối trong một cửa sổ ngữ cảnh rất hẹp do khởi tạo lại sau mỗi bước. Cơ chế này khiến nó giống như một người mất trí nhớ dựa vào ghi chú để duy trì nhận thức, lặp lại thông tin rời rạc và không bao giờ có thể đạt được trải nghiệm nhảy vọt từ thay đổi định lượng sang chất như một người chơi thực sự.

Trong các lĩnh vực như cờ vua và cờ vây, các hệ thống AI từ lâu đã vượt qua con người, nhưng các hệ thống này được tùy chỉnh cao cho các nhiệm vụ cụ thể. Ngược lại, Gemini, Claude và GPT, với tư cách là các mô hình có mục đích chung, thường xuyên đánh bại con người trong các kỳ thi và cuộc thi lập trình, nhưng liên tục thất vọng trong một trò chơi hướng đến trẻ em.

Bản thân sự tương phản này rất tiết lộ.

Theo quan điểm của Joel Zhang, thách thức cốt lõi mà AI phải đối mặt là không có khả năng thực hiện một mục tiêu rõ ràng duy nhất trong một khoảng thời gian dài. “Nếu bạn muốn một đại lý làm việc thực sự, họ không thể quên những gì họ đã làm năm phút trước”, ông lưu ý.

Và khả năng này là điều kiện tiên quyết không thể thiếu để thực hiện tự động hóa lao động nhận thức.

Nhà nghiên cứu độc lập Peter Whidden đưa ra một mô tả trực quan hơn. Anh ấy đã từng mở mã nguồn một thuật toán Pokémon dựa trên AI truyền thống. “AI biết hầu hết mọi thứ về Pokémon,” ông nói, “và nó được đào tạo dựa trên dữ liệu khổng lồ của con người và biết câu trả lời chính xác.” Nhưng khi nói đến giai đoạn thực hiện, nó có vẻ vụng về. ”

Trong trò chơi, lỗi “biết nhưng không thể làm” này liên tục được khuếch đại: người mẫu có thể biết rằng nó cần tìm một vật phẩm nhất định, nhưng nó không thể được định vị ổn định trên bản đồ 2D; Biết rằng bạn nên nói chuyện với NPC, nhưng liên tục thất bại trong chuyển động cấp độ pixel.

03 Đằng sau sự phát triển của khả năng: khoảng cách “bản năng” chưa vượt qua

Tuy nhiên, những tiến bộ trong AI vẫn có thể nhìn thấy rõ ràng. Claude Opus 4.5 tốt hơn đáng kể so với người tiền nhiệm về khả năng tự ghi và hiểu trực quan, cho phép nó tiến xa hơn trong trò chơi. Sau khi hoàn thành “Pokémon Blue”, Gemini 3 Pro đã hoàn thành “Pokémon Crystal” khó hơn mà không thua một trận chiến nào. Đây là điều mà Gemini 2.5 Pro chưa bao giờ đạt được.

Trong khi đó, bộ công cụ Claude Code của Anthropic, cho phép các mô hình viết và chạy mã của riêng họ, đã được sử dụng trong các trò chơi cổ điển như Roller Coaster Tycoon, được cho là thành công trong việc quản lý các công viên giải trí ảo.

Những ví dụ này tiết lộ một thực tế không trực quan: AI với bộ công cụ phù hợp có thể cực kỳ hiệu quả trong các nhiệm vụ kiến thức như phát triển phần mềm, kế toán, phân tích pháp lý, v.v., ngay cả khi họ vẫn phải vật lộn để đối phó với các nhiệm vụ đòi hỏi phản ứng theo thời gian thực.

Thí nghiệm Pokémon cũng tiết lộ một hiện tượng hấp dẫn khác: các mô hình được đào tạo dựa trên dữ liệu của con người thể hiện các đặc điểm hành vi tương tự như của con người.

Trong báo cáo kỹ thuật cho Gemini 2.5 Pro, Google lưu ý rằng khi hệ thống mô phỏng “trạng thái hoảng loạn”, chẳng hạn như khi Pokémon sắp ngất xỉu, chất lượng suy luận của mô hình sẽ giảm đáng kể.

Và khi Gemini 3 Pro cuối cùng đã xóa Pokémon Blue, nó đã để lại cho mình một ghi chú không cần thiết cho nhiệm vụ: “Để có một kết thúc thơ mộng, tôi sẽ trở về ngôi nhà ban đầu của mình, có một cuộc trò chuyện cuối cùng với mẹ tôi và để nhân vật nghỉ hưu.” ”

Theo quan điểm của Joel Zhang, hành vi này là bất ngờ và có sự phóng chiếu cảm xúc nhất định của con người.

04. “Digital Long March” không thể vượt qua của AI không chỉ là “Pokémon”

Pokémon không phải là một trường hợp cá biệt. Trên con đường đến với trí tuệ nhân tạo tổng quát (AGI), các nhà phát triển đã phát hiện ra rằng ngay cả khi AI có thể xếp hạng trong số những người giỏi nhất trong cuộc kiểm tra tư pháp, nó vẫn phải đối mặt với một “Waterloo” không thể vượt qua khi đối mặt với các loại trò chơi phức tạp sau đây.

NetHack: Vực thẳm của các quy tắc

Trò chơi ngục tối thập niên 80 này là một “cơn ác mộng” đối với cộng đồng nghiên cứu AI. Nó cực kỳ ngẫu nhiên và có cơ chế “vĩnh viễn”. Nghiên cứu AI của Facebook cho thấy ngay cả khi mô hình có thể viết mã, nó vẫn kém xa so với người mới bắt đầu khi đối mặt với NetHack, đòi hỏi logic thông thường và lập kế hoạch dài hạn.

Minecraft: Ý thức về mục đích đã mất

Mặc dù AI có thể chế tạo cuốc gỗ và thậm chí đào kim cương, nhưng việc “đánh bại rồng ender” một cách độc lập vẫn là một điều tưởng tượng. Trong thế giới mở, AI thường “quên” ý định ban đầu của nó trong hàng chục giờ thu thập tài nguyên hoặc hoàn toàn bị lạc trong điều hướng phức tạp.

StarCraft II: Đường đứt gãy giữa chuyên môn hóa

Mặc dù các mô hình tùy chỉnh đã đánh bại những người chuyên nghiệp, nhưng nếu Claude hoặc Gemini tiếp quản trực tiếp bằng các lệnh trực quan, họ sẽ sụp đổ ngay lập tức. Trong việc đối phó với sự không chắc chắn của “sương mù chiến tranh” và cân bằng giữa hoạt động vi mô và xây dựng vĩ mô, mô hình chung vẫn còn bất cập.

“Ông trùm tàu lượn siêu tốc”: Sự mất cân bằng giữa vi mô và vĩ mô

Quản lý công viên đòi hỏi phải theo dõi tình trạng của hàng nghìn du khách. Ngay cả Claude Code, người có kỹ năng quản lý ban đầu, cũng rất dễ bị mệt mỏi khi đối phó với sự sụp đổ tài chính quy mô lớn hoặc các trường hợp khẩn cấp. Bất kỳ lỗi lý do nào cũng sẽ dẫn đến sự phá sản của công viên.

Elden Ring vs. Sekiro: Sự phân chia phản hồi vật lý

Loại trò chơi phản hồi hành động mạnh mẽ này cực kỳ không thân thiện với AI. Độ trễ hiện tại về độ phân giải hình ảnh có nghĩa là các nhân vật thường bị giết trong khi AI vẫn đang “suy nghĩ” về các bước di chuyển của trùm. Các yêu cầu phản hồi cấp mili giây tạo thành giới hạn trên tự nhiên của logic tương tác của mô hình.

05 Tại sao “Pokémon” lại trở thành một viên đá thử nghiệm của AI?

Ngày nay, Pokémon đang dần trở thành một chuẩn mực không chính thức nhưng rất thuyết phục trong lĩnh vực đánh giá AI.

Các mô hình của Anthropic, OpenAI và Google đã thu hút hàng trăm nghìn bình luận trên Twitch. Google đã trình bày chi tiết tiến trình trò chơi của Gemini trong một báo cáo kỹ thuật và Pichai đã công khai đề cập đến thành tích này tại hội nghị nhà phát triển I/O. Anthropic thậm chí còn thiết lập một khu vực trưng bày “Claude Play Pokémon” tại các hội nghị trong ngành.

“Chúng tôi là một nhóm những người đam mê siêu công nghệ”, David Hershey, người đứng đầu bộ phận AI ứng dụng tại Anthropic cho biết. Nhưng ông nhấn mạnh rằng đây không chỉ là giải trí.

Không giống như các điểm chuẩn truyền thống là câu hỏi và câu trả lời một lần, Pokémon có thể liên tục theo dõi lý luận, ra quyết định và quá trình thăng tiến mục tiêu của mô hình trong một khoảng thời gian cực dài, gần với các nhiệm vụ phức tạp mà con người muốn AI thực hiện trong thế giới thực.

Tính đến thời điểm hiện tại, thách thức của AI trong Pokémon vẫn tiếp tục. Nhưng chính những tình huống khó xử lặp đi lặp lại này đã phác thảo rõ ràng ranh giới của các khả năng mà AGI vẫn chưa vượt qua.

Trình biên dịch đặc biệt Wuji cũng đóng góp cho bài viết này

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận