Google phát hành thuật toán TurboQuant: Lượng tử hóa KV cache 3 bit không mất độ chính xác, tốc độ suy luận tăng lên tối đa 8 lần

Tin tức Gate News, ngày 25 tháng 3, Viện Nghiên cứu Google đã công bố thuật toán nén lượng tử TurboQuant, có thể nén bộ đệm KV của mô hình ngôn ngữ lớn xuống còn 3 bit, giảm tiêu thụ bộ nhớ ít nhất 6 lần, không cần huấn luyện hoặc tinh chỉnh, không làm giảm độ chính xác của mô hình. Trong chế độ 4 bit, tốc độ tính toán chú ý trên GPU NVIDIA H100 tăng tối đa 8 lần so với mức cơ sở không nén 32 bit. Nhóm nghiên cứu đã xác nhận hiệu quả của TurboQuant trên các bộ chuẩn dài như LongBench, Needle In A Haystack, ZeroSCROLLS bằng cách sử dụng các mô hình Gemma và Mistral, đạt hiệu suất tối ưu trong tất cả các thử nghiệm. Thuật toán này gồm hai phần: PolarQuant sử dụng biến đổi tọa độ cực để loại bỏ chi phí bộ nhớ của phương pháp lượng tử truyền thống, QJL chỉ dùng 1 bit để hiệu chỉnh sai số còn lại. Nghiên cứu do Amir Zandieh của Viện Nghiên cứu Google và Phó Chủ tịch kiêm Google Fellow Vahab Mirrokni dẫn đầu, hợp tác với KAIST Hàn Quốc và Đại học New York, sẽ được trình bày tại ICLR 2026. Google cho biết một trong những ứng dụng chính của công nghệ này là giải quyết nút thắt về bộ đệm KV của các mô hình như Gemini.

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận