2026-04-10 12:04:04

Gemma 4 trên llama.cpp cuối cùng đã ổn định

Ngày 2 tháng 4, Google phát hành Gemma 4, ngày đầu tiên đã có hỗ trợ llama.cpp nhưng nhiều lỗi. Giờ tất cả các vấn đề đã được sửa xong
E2B, E4B, 26B MoE, 31B Dense
31B xếp thứ 3 trong bảng xếp hạng Arena AI, 26B xếp thứ 6
Đội ngũ mô hình mã nguồn mở mạnh nhất
Sử dụng --chat-template-file để tải mẫu xen kẽ
Khuyên mở --cache-ram 2048
Độ dài ngữ cảnh dựa vào VRAM
Năm ngoái, phiên bản tốt nhất chạy tại chỗ là Llama 3.1 70B đã lượng hóa, tạm dùng được
Hiện tại, Gemma 4 31B Q5 chạy mượt trên Mac Studio, gần bằng cấp độ GPT-4
Ứng dụng AI không phụ thuộc API bắt đầu có khả năng thương mại. Dữ liệu không ra khỏi máy, chi phí bằng 0, độ trễ cực thấp
Đối với doanh nghiệp cá nhân, mô hình tại chỗ là hạ tầng thực sự. Đối thủ phải trả phí API, chi phí biên của bạn là tiền điện
Gemma 4 + llama.cpp = giải pháp suy luận tại chỗ tối ưu, có thể đưa vào sản xuất

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích