Kết quả tìm kiếm cho "OPUS"
2026-04-28
11:02

Kimi K2.6 Đứng Đầu Bảng Xếp Hạng LLM của OpenRouter Trong Tuần Đầu, Lượt Sử Dụng Tăng 7.683%

Tin tức cổng, ngày 28 tháng 4 — Kimi K2.6, mô hình chủ lực từ Moonshot AI, đã vươn lên vị trí đầu bảng trong bảng xếp hạng LLM hằng tuần của OpenRouter với 1,88 nghìn tỷ token đã tiêu thụ, tăng vọt 7.683% so với tuần trước. Mô hình, được ra mắt trên OpenRouter vào ngày 20 tháng 4, đã vượt qua Claude Sonnet 4.6 (1.35T, -3%) và DeepSeek
Xem thêm
00:45

GitHub Copilot Chuyển Sang Thanh Toán Dựa Trên Token Bắt Đầu Từ Ngày 1 Tháng 6, Phí Hàng Tháng Không Đổi

Tin từ Gate News, ngày 28 tháng 4 — GitHub đã công bố rằng tất cả các gói Copilot sẽ chuyển sang thanh toán dựa trên token có hiệu lực từ ngày 1 tháng 6 năm 2026. Mô hình giá hiện tại "yêu cầu cao cấp" sẽ được thay thế bằng GitHub AI Credits, trong đó việc sử dụng được tính dựa trên mức tiêu thụ token thực tế (bao gồm đầu vào, đầu ra và token đã lưu trong bộ nhớ đệm theo mức giá khớp với giá API công khai của từng mô hình.
Xem thêm
23:49

Dòng MiMo-V2.5 của Xiaomi ra mắt mã nguồn mở: 1T tham số, hiệu quả token vượt trội so với GPT-5.4

Tin cổng, ngày 27 tháng 4 — Nhóm MiMo của Xiaomi đã phát hành mã nguồn mở cho dòng mô hình ngôn ngữ lớn MiMo-V2.5 theo giấy phép MIT, hỗ trợ triển khai thương mại, huấn luyện tiếp tục và tinh chỉnh. Cả hai mô hình đều có cửa sổ ngữ cảnh 1 triệu token. MiMo-V2.5-Pro là mô hình mixture-of-experts văn bản thuần MoE với tổng cộng 1,02 nghìn tỷ tham số và 1T tham số hoạt động
Xem thêm
05:17

GPT-5.5 Trở Lại Tuyến Đầu Trong Lập Trình, Nhưng OpenAI Đổi Benchmark Sau Khi Thua Opus 4.7

Tin tức cổng, ngày 27 tháng 4 — SemiAnalysis, một công ty phân tích chất bán dẫn và AI, đã phát hành một bảng benchmark so sánh các trợ lý lập trình bao gồm GPT-5.5, Claude Opus 4.7 và DeepSeek V4. Phát hiện then chốt: GPT-5.5 đánh dấu lần đầu tiên OpenAI quay trở lại tuyến đầu trong các mô hình lập trình trong vòng sáu tháng, với các kỹ sư của SemiAnalysis hiện đang luân phiên giữa Codex và Claude Code sau trước đó gần như chỉ dựa vào Claude. GPT-5.5 dựa trên một cách tiếp cận huấn luyện trước mới được mã danh "Spud" và thể hiện lần mở rộng quy mô huấn luyện trước đầu tiên của OpenAI kể từ GPT-4.5. Trong thử nghiệm thực tế, một sự phân công rõ ràng đã xuất hiện. Claude đảm nhiệm lập kế hoạch dự án mới và thiết lập ban đầu, trong khi Codex tỏ ra xuất sắc trong việc sửa các lỗi đòi hỏi nhiều suy luận. Codex thể hiện khả năng hiểu cấu trúc dữ liệu tốt hơn và lý luận logic mạnh hơn nhưng gặp khó khăn trong việc suy ra ý định người dùng mơ hồ. Trong một tác vụ trên cùng một bảng điều khiển, Claude tự động tái tạo bố cục trang tham chiếu nhưng bịa ra một lượng lớn dữ liệu, trong khi Codex bỏ qua bố cục nhưng lại cung cấp lượng dữ liệu chính xác hơn đáng kể. Bài phân tích tiết lộ chi tiết thao túng benchmark: Bài đăng blog của OpenAI hồi tháng 2 đã kêu gọi ngành áp dụng SWE-bench Pro làm tiêu chuẩn mới cho các benchmark lập trình. Tuy nhiên, thông báo của GPT-5.5 đã chuyển sang một benchmark mới có tên "Expert-SWE." Lý do, được chôn trong các chi tiết nhỏ, là GPT-5.5 đã bị Opus 4.7 vượt qua trên SWE-bench Pro và thua kém đáng kể so với Mythos 77.8% chưa được phát hành của Anthropic. Về Opus 4.7, Anthropic đã công bố một bài phân tích hậu kiểm một tuần sau khi phát hành, thừa nhận ba lỗi trong Claude Code đã tồn tại trong nhiều tuần từ tháng 3 đến tháng 4, ảnh hưởng đến gần như tất cả người dùng. Trước đó, nhiều kỹ sư đã báo cáo sự suy giảm hiệu năng ở phiên bản 4.6 nhưng bị bác bỏ như những quan sát chủ quan. Ngoài ra, bộ mã thông báo (tokenizer) mới của Opus 4.7 làm tăng số lượng token lên đến 35%, điều mà Anthropic đã công khai thừa nhận—thực chất tương đương với một đợt tăng giá ẩn. DeepSeek V4 được đánh giá là "theo kịp với tuyến đầu nhưng không dẫn đầu," định vị mình là lựa chọn thay thế có chi phí thấp nhất trong số các mô hình nguồn đóng. Bài phân tích cũng ghi nhận rằng "Claude tiếp tục vượt trội DeepSeek V4 Pro trên các tác vụ viết tiếng Trung có độ khó cao," và bình luận rằng "Claude đã thắng mô hình Trung Quốc ngay trên chính ngôn ngữ của nó." Bài viết đưa ra một khái niệm quan trọng: nên đánh giá giá mô hình theo "chi phí cho mỗi tác vụ" thay vì "chi phí cho mỗi token." Giá của GPT-5.5 gấp đôi so với GPT-5.4 input $5, output per million tokens, nhưng nó hoàn thành các tác vụ tương tự bằng ít token hơn, vì vậy chi phí thực tế không nhất thiết cao hơn. Dữ liệu ban đầu của SemiAnalysis cho thấy tỉ lệ đầu vào/đầu ra của Codex là 80:1, thấp hơn tỉ lệ 100:1 của Claude Code.
Xem thêm
04:57

Xiaomi Tiết Lộ Chi Tiết Huấn Luyện MiMo-V2-Pro: Tham Số Mô Hình 1T, Triển Khai Hàng Nghìn GPU

Tin tức Cổng, ngày 24 tháng 4 — Trưởng nhóm mô hình ngôn ngữ lớn của Xiaomi, Luo Fuli, đã tiết lộ trong một cuộc phỏng vấn chuyên sâu rằng mô hình MiMo-V2-Pro có tổng cộng 1 nghìn tỷ tham số và để huấn luyện cần hàng nghìn GPU. Cô cho biết quy mô 1T là ngưỡng tối thiểu để đạt hiệu năng tiến gần tới Claude Opus 4.6 và giành vé vào cửa cạnh tranh cho giai đoạn tiếp theo của các tác nhân AI
Xem thêm
04:29

V4-Pro Đạt Tỷ Lệ Vượt Kiểm Tra Viết Mã 67% Trong Bài Test Tự Dùng Nội Bộ, Tiệm Cận Hiệu Năng của Opus 4.5

Tin tức cổng, ngày 24 tháng 4 — V4 đã công bố công khai dữ liệu tự dùng nội bộ (dogfooding) cho mô hình V4-Pro của mình. Công ty đã thu thập khoảng 200 tác vụ kỹ thuật thực tế từ hơn 50 kỹ sư, bao gồm phát triển tính năng, sửa lỗi, tái cấu trúc (refactoring) và chẩn đoán trên nhiều ngăn xếp công nghệ, bao gồm
Xem thêm
23:53

Anthropic Xác Định Ba Thay Đổi Ở Lớp Sản Phẩm Dẫn Tới Suy Giảm Chất Lượng Claude Code, Không Phải Lỗi Từ Mô Hình

Tin Cổng, ngày 23 tháng 4 — Nhóm kỹ thuật của Anthropic đã xác nhận rằng sự suy giảm chất lượng của Claude Code được người dùng báo cáo trong tháng qua bắt nguồn từ ba thay đổi độc lập ở lớp sản phẩm, không phải từ vấn đề API hay từ mô hình nền tảng. Ba vấn đề này đã được khắc phục lần lượt vào ngày 7 tháng 4, ngày 10 tháng 4 và A
Xem thêm
07:51

AWS mở rộng các quy trình AI nhiều tác nhân, hỗ trợ Claude Opus 4.7 trên Bedrock

Tin tức từ Gate, ngày 22 tháng 4 — Amazon Web Services đã công bố việc mở rộng các sáng kiến AI mang tính tác nhân thông qua các quy trình làm việc nhiều tác nhân, hỗ trợ Anthropic's Claude Opus 4.7 trên Amazon Bedrock để giúp khách hàng đi xa hơn các thử nghiệm AI sinh thành. Công ty đang mở rộng quan hệ đối tác khi khách hàng chuyển từ các công cụ AI đơn lẻ sang các hệ thống kết nối nhiều tác nhân chuyên biệt.
Xem thêm
01:11

Moonshot AI Phát Hành Mô Hình Mã Nguồn Mở Kimi K2.6 Với Quy Trình Tác Nhân Nâng Cao

Tin tức Cổng, ngày 22 tháng 4 — Moonshot AI đã phát hành mô hình mã nguồn mở Kimi K2.6 của mình vào ngày 20 tháng 4, giới thiệu các khả năng mới cho lập trình, tạo mã front-end và điều phối đa tác nhân. Mô hình được thiết kế để hỗ trợ các quy trình làm việc doanh nghiệp phức tạp thông qua Lập trình Tác nhân nâng cao và Deep
Xem thêm