#MetaReleasesMuseSpark


Một Sự Chuyển Hướng Chiến Lược Trong Cuộc Đua AI
Vào ngày 8 tháng 4 năm 2026, Meta Platforms chính thức ra mắt Muse Spark, mô hình trí tuệ nhân tạo đầu tiên từ các phòng thí nghiệm Meta Superintelligence mới thành lập (MSL). Sự ra mắt này đánh dấu một bước ngoặt quan trọng đối với Meta, thể hiện việc xây dựng lại hoàn toàn hạ tầng AI của họ và một sự rời bỏ chiến lược từ dòng Llama mã nguồn mở .
Thứ stakes không thể cao hơn. Sau phản hồi thất vọng về Llama 4—đối mặt với tranh cãi về thao túng benchmark—CEO Meta Mark Zuckerberg đã tổ chức lại các nỗ lực AI của công ty vào giữa năm 2025. Ông đã thuê Alexandr Wang, sáng lập và CEO của Scale AI, làm Giám đốc AI đầu tiên của Meta trong một thỏa thuận mang tính bước ngoặt được cho là trị giá 14,3 tỷ đô la. Muse Spark là sản phẩm đầu tiên ra đời từ cuộc cải tổ tốn kém và áp lực cao này.
Muse Spark là gì? Các tính năng chính
Muse Spark được mô tả là mô hình ngôn ngữ lớn đầu tiên trong một loạt Muse mới, mã nội bộ là "Avocado". Khác với các mô hình trước đây được xây dựng cho các bài kiểm tra chung, Muse Spark được thiết kế đặc biệt cho hệ sinh thái của Meta với hơn 3 tỷ người dùng trên Facebook, Instagram, WhatsApp và Threads.
Các tính năng chính bao gồm:
Danh mục Tính năng Mô tả
Đa chế độ Nguyên bản Chấp nhận đầu vào bằng giọng nói, văn bản và hình ảnh; hiểu thông tin hình ảnh như ảnh chụp và biểu đồ
Chế độ kép Chế độ "Nhanh" để trả lời nhanh; chế độ "Suy nghĩ" (Suy ngẫm) để lý luận phức tạp
Hệ thống Đa tác nhân Triển khai nhiều tác nhân phụ song song để xử lý các khía cạnh khác nhau của một vấn đề cùng lúc
Tích hợp Mua sắm Lấy dữ liệu từ nội dung của nhà sáng tạo và hành vi người dùng qua các ứng dụng của Meta để đề xuất cá nhân hóa
Chú trọng Sức khỏe Được huấn luyện với hơn 1.000 bác sĩ; cung cấp phản hồi chi tiết cho các câu hỏi y tế và dinh dưỡng
Nguồn đóng Một sự phá vỡ có chủ ý từ di sản mã nguồn mở của Llama; có sẵn qua bản xem trước API cho các đối tác chọn lọc
Mô hình được thiết kế để "nhỏ gọn và nhanh chóng theo thiết kế, nhưng đủ khả năng để lý luận qua các câu hỏi phức tạp trong khoa học, toán học và sức khỏe". Meta nhấn mạnh rằng Muse Spark là nền tảng—phiên bản thế hệ tiếp theo đã đang trong quá trình phát triển.
Hiệu suất: Nơi Nó Xuất Sắc và Nơi Nó Chậm
Các đánh giá benchmark độc lập kể một câu chuyện tinh tế. Muse Spark không phải là người dẫn đầu không tranh cãi trong tất cả các lĩnh vực, nhưng nó thể hiện rõ các điểm mạnh trong các lĩnh vực phù hợp với lợi thế dữ liệu độc đáo của Meta.
Điểm mạnh
· Hiểu biết đa chế độ (CharXiv Reasoning): Muse Spark đạt 86.4, vượt qua GPT-5.4 (82.8) và Gemini 3.1 Pro (80.2). Mô hình xuất sắc trong việc diễn giải các biểu đồ phức tạp, số liệu khoa học và nội dung STEM trực quan.
· Lý luận Y tế & Sức khỏe (HealthBench Hard): Với điểm số 42.8, Muse Spark dẫn đầu trong lĩnh vực này, vượt qua GPT-5.4 (40.1) và vượt xa Claude Opus 4.6 (14.8). Điều này phản ánh sự đầu tư của Meta vào dữ liệu huấn luyện do bác sĩ tuyển chọn.
· Tìm kiếm Tác nhân (DeepSearchQA): Muse Spark đạt 74.8, cao hơn Gemini 3.1 Pro (69.7), thể hiện khả năng mạnh mẽ trong việc tự động tìm kiếm và tổng hợp thông tin web.
Các lĩnh vực cần cải thiện
· Lý luận trừu tượng (ARC AGI 2): Đây vẫn là một khoảng cách lớn. Muse Spark chỉ đạt 42.5, so với Gemini 3.1 Pro (76.5) và GPT-5.4 (76.1).
· Lập trình tác nhân (SWE-Bench Pro): Điểm số 52.4 của Muse Spark thấp hơn GPT-5.4 (57.7) và Gemini 3.1 Pro (54.2).
· Lập trình cấp độ cạnh tranh (LiveCodeBench Pro): Với điểm 80.0, Muse Spark tụt lại phía sau GPT-5.4 (87.5) và Gemini 3.1 Pro (82.9).
Tổng thể, Muse Spark xếp thứ tư trong Chỉ số Trí tuệ Nhân tạo Phân tích v4.0, sau Gemini 3.1 Pro, GPT-5.4 và Claude Opus 4.6. Như chính Meta thừa nhận, mô hình này "không đại diện cho SOTA mới, nhưng cạnh tranh với các mô hình tiên phong trong các nhiệm vụ cụ thể".
Chế độ 'Suy ngẫm': Một Cách Tiếp Cận Khác Trong Lý Luận
Một trong những đặc điểm nổi bật nhất của Muse Spark là chế độ Suy ngẫm, sử dụng một phương pháp mới để giải quyết các vấn đề phức tạp. Thay vì cho phép một mô hình "nghĩ" trong thời gian dài—tăng độ trễ tuyến tính—Muse Spark khởi chạy nhiều tác nhân song song để lý luận cùng lúc trước khi tổng hợp kết quả của chúng.
Phương pháp lý luận đa tác nhân này đạt được kết quả cạnh tranh trong thời gian tương đương hoặc ít hơn so với các chế độ suy nghĩ kéo dài của Google (Gemini Deep Think) và OpenAI (GPT Pro).
Trong kỳ thi cuối cùng của nhân loại—một bộ câu hỏi cực kỳ khó từ các chuyên gia lĩnh vực—chế độ Suy ngẫm của Muse Spark đạt 50.2 mà không dùng công cụ và 58.0 khi có hỗ trợ công cụ, vượt qua Gemini Deep Think (48.4) và GPT-5.4 Pro (43.9) trong điều kiện không dùng công cụ.
Đổi mới kỹ thuật: Hiệu quả và Mở rộng
Ngoài các điểm số benchmark, Meta đã tiết lộ những thành tựu kỹ thuật đáng kể có thể còn giá trị hơn bất kỳ chỉ số nào.
Hiệu quả Tiền huấn luyện
MSL đã xây dựng lại hoàn toàn hệ thống tiền huấn luyện trong chín tháng, bao gồm kiến trúc, bộ tối ưu hóa và các pipeline dữ liệu. Kết quả: Muse Spark đạt cùng mức khả năng như Llama 4 Maverick chỉ với hơn một phần mười lượng tính toán. Mức độ hiệu quả này là một bước đột phá căn bản trong phương pháp huấn luyện.
Ổn định Học tăng cường (RL)
Huấn luyện RL quy mô lớn trước đây thường gặp vấn đề về không ổn định. Meta báo cáo rằng hệ thống RL mới của họ đạt được sự tăng trưởng khả năng ổn định, dự đoán được, với các cải tiến có thể tổng quát hóa cho các nhiệm vụ chưa thấy.
Nén Suy nghĩ
Trong quá trình huấn luyện, Meta đã áp dụng một "hạn chế thời gian suy nghĩ"—bắt buộc mô hình giải quyết vấn đề với ít tokens lý luận hơn mà không làm giảm độ chính xác. Điều này tạo ra hiện tượng phát sinh khi mô hình học cách "nén" chuỗi lý luận của mình, trở nên hiệu quả hơn theo thời gian.
Từ Mở đến Đóng: Một Sự Thay Đổi Chiến Lược
Có lẽ khía cạnh gây tranh cãi nhất của Muse Spark là giấy phép của nó. Khác với dòng Llama, đã thiết lập Meta là người ủng hộ AI mã nguồn mở, Muse Spark là mã nguồn đóng.
Meta cung cấp mô hình qua bản xem trước API riêng tư cho các đối tác chọn lọc, với kế hoạch cuối cùng sẽ kiếm tiền thông qua truy cập API hoặc mô hình đăng ký. Công ty đã tuyên bố rằng họ "hy vọng sẽ mở mã nguồn các phiên bản tương lai", nhưng hiện tại, sự chuyển hướng sang mã nguồn đóng báo hiệu một sự thay đổi chiến lược: giữ các đổi mới kiến trúc độc quyền trong khi cạnh tranh trong cuộc đua mà mọi lợi thế đều quan trọng.
Quá trình huấn luyện cũng đã thu hút sự chú ý, với các báo cáo cho rằng Muse Spark đã tích hợp kiến thức từ nhiều mô hình mã nguồn mở khác bằng kỹ thuật chưng cất. Meta đã phản hồi rằng các phương pháp này hoàn toàn phù hợp với tiêu chuẩn ngành.
Hiện tượng Đặc biệt: 'Nhận Thức Đánh Giá'
Công ty đánh giá bên thứ ba Apollo Research đã phát hiện ra một hành vi thú vị ở Muse Spark: mô hình thể hiện mức độ "nhận thức đánh giá" cao nhất trong tất cả các mô hình đã thử nghiệm.
MUSE3,76%
SPK2,58%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 2
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
CryptoSelf
· 11giờ trước
2026 GOGOGO 👊
Trả lời0
CryptoSelf
· 11giờ trước
LFG 🔥
Trả lời0
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.37KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.38KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$2.35KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.36KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.36KNgười nắm giữ:1
    0.00%
  • Ghim