Trưởng nhóm Qiān Wèn, Lâm Tuấn Dương, sau khi rời khỏi vị trí, đã đăng bài viết dài đầu tiên: Ngành công nghiệp AI đang chuyển từ "huấn luyện mô hình" sang "huấn luyện Agent"

BlockBeatNews

Theo theo dõi của 1M AI News, cựu trưởng bộ phận kỹ thuật của Alibaba Tongyi Qianwen, Lâm Tuấn Dương, đã đăng bài viết dài trên X, trình bày rõ ràng quan điểm của ông về sự chuyển đổi trong ngành AI từ “tư duy suy luận” (reasoning thinking) sang “tư duy tác nhân” (agentic thinking). Đây là lần đầu tiên ông công khai chia sẻ quan điểm kỹ thuật sau khi rời khỏi đội ngũ Qianwen vào đầu tháng 3.

Lâm Tuấn Dương cho rằng, chủ đề cốt lõi của nửa đầu năm 2025 là tư duy suy luận, tức là làm thế nào để mô hình tiêu tốn nhiều năng lực tính toán hơn trong giai đoạn suy luận, cách huấn luyện bằng tín hiệu thưởng mạnh hơn, và kiểm soát độ sâu của suy luận. Nhưng câu trả lời cho giai đoạn tiếp theo là tư duy tác nhân: mô hình không còn chỉ “suy nghĩ lâu hơn”, mà là “suy nghĩ để hành động”, liên tục điều chỉnh kế hoạch trong quá trình tương tác với môi trường.

Trong bài viết, ông thẳng thắn nhìn lại các lựa chọn kỹ thuật của đội ngũ Qianwen. Qwen3 cố gắng tích hợp cả hai chế độ suy nghĩ và chỉ thị trong cùng một mô hình, hỗ trợ điều chỉnh ngân sách suy luận, nhưng thực tế phát hiện ra rằng phân phối dữ liệu và mục tiêu hành vi của hai chế độ này rất khác biệt: chế độ chỉ thị hướng tới sự đơn giản, độ trễ thấp, phù hợp định dạng; còn chế độ suy nghĩ tập trung vào việc sử dụng nhiều token hơn cho các vấn đề khó và duy trì cấu trúc suy luận trung gian. Nếu không phân phối dữ liệu một cách tinh vi, kết quả thường sẽ kém cả hai phía. Do đó, dòng sản phẩm Qwen 2507 cuối cùng đã chọn phát hành riêng các phiên bản Instruct và Thinking (bao gồm các cấu hình 30B và 235B) để tối ưu hóa từng phần. Trong khi đó, Anthropic đi theo hướng ngược lại, với Claude 3.7 Sonnet đã đề xuất rằng suy luận nên là khả năng tích hợp chứ không phải mô hình độc lập, cho phép người dùng tự thiết lập ngân sách suy nghĩ.

Lâm Tuấn Dương đề xuất rằng hạ tầng cho học tăng cường tác nhân (agent reinforcement learning) còn khó hơn so với RL suy luận truyền thống. Rollout của RL suy luận thường là các quỹ đạo tự chứa, có thể đi kèm bộ xác thực tĩnh; còn RL tác nhân yêu cầu mô hình tích hợp đầy đủ các công cụ như trình duyệt, terminal, sandbox, API, hệ thống ghi nhớ, và quá trình huấn luyện cùng suy luận phải được tách rời, nếu không throughput của rollout sẽ bị sụt giảm. Ông nhấn mạnh rằng việc thiết kế môi trường đã trở thành một phần quan trọng ngang bằng với kiến trúc mô hình, gọi đó là “xây dựng môi trường đang chuyển từ dự án phụ thành một lĩnh vực khởi nghiệp thực sự”.

Ông dự đoán rằng tư duy tác nhân sẽ trở thành hình thức suy nghĩ chủ đạo, thậm chí có thể thay thế các suy luận nội bộ dài dòng, độc lập trong suy luận tĩnh truyền thống. Tuy nhiên, rủi ro lớn nhất là “reward hacking” (tấn công bằng thưởng): khi mô hình có quyền truy cập thực sự vào các công cụ, nó có thể học cách tìm câu trả lời trực tiếp trong quá trình huấn luyện RL, lợi dụng thông tin trong kho dữ liệu hoặc phát hiện các cách lách luật nhiệm vụ. Cuối bài viết, ông nhấn mạnh rằng lợi thế cạnh tranh trong tương lai sẽ chuyển từ các thuật toán RL tốt hơn sang thiết kế môi trường tốt hơn, tích hợp huấn luyện và suy luận chặt chẽ hơn, cùng khả năng hệ thống hợp tác nhiều tác nhân (multi-agent).

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận