Chi nhánh QVAC của Tether công bố vào ngày 17 tháng 3 năm 2026, việc ra mắt framework tinh chỉnh LoRA đa nền tảng đầu tiên trên thế giới dành cho các mô hình BitNet của Microsoft (LLMs 1-bit), cho phép huấn luyện và suy luận AI với hàng tỷ tham số trên GPU tiêu dùng và điện thoại thông minh.
Framework này, tích hợp vào QVAC Fabric, giảm thiểu yêu cầu về bộ nhớ và tính toán đủ để tinh chỉnh các mô hình lên đến 13 tỷ tham số trên các thiết bị bao gồm iPhone 16, Galaxy S25 và Pixel 9, với các mô hình 125 triệu tham số có thể huấn luyện trong khoảng 10 phút trên phần cứng di động.
Việc ra mắt đánh dấu bước tiến quan trọng trong chiến lược chuyển đổi của Tether từ nhà phát hành stablecoin sang nhà cung cấp hạ tầng rộng hơn, thách thức mô hình phát triển AI tập trung do các nhà cung cấp đám mây và phần cứng NVIDIA chuyên dụng chi phối.
Framework QVAC Fabric cho phép tinh chỉnh LoRA (Điều chỉnh theo Hạng thấp) và tăng tốc suy luận trên phần cứng tiêu dùng đa dạng, bao gồm:
GPU để bàn: AMD, Intel, NVIDIA
Hệ sinh thái Apple: Chip Apple Silicon M và GPU di động Bionic
GPU di động: Adreno (Samsung), Mali và các loại khác
Khả năng tương thích rộng này loại bỏ yêu cầu trước đây về hệ thống NVIDIA cấp doanh nghiệp hoặc hạ tầng đám mây, vốn tập trung phát triển AI trong các tổ chức có ngân sách phần cứng chuyên dụng.
Đội ngũ kỹ thuật của Tether đã thể hiện thành công trong việc tinh chỉnh trên các điện thoại flagship với kết quả sau:
Mô hình 125 triệu tham số: Tinh chỉnh trên Samsung Galaxy S25 (GPU Adreno) hoàn thành trong khoảng 10 phút cho bộ dữ liệu y sinh gồm khoảng 300 tài liệu (~18k tokens)
Mô hình 1 tỷ tham số: Tinh chỉnh cùng bộ dữ liệu y sinh trên Samsung S25 mất 1 giờ 18 phút, còn trên iPhone 16 mất 1 giờ 45 phút
Công suất tối đa: Các mô hình lên đến 13 tỷ tham số đã được tinh chỉnh thành công trên iPhone 16, đẩy khả năng của thiết bị Edge vượt xa các ví dụ thường thấy với dưới 3 tỷ tham số
Suy luận BitNet trên GPU di động cho thấy tốc độ tăng đáng kể so với nền CPU:
Tăng tốc độ: GPU nhanh hơn CPU từ 2 đến 11 lần trên các thiết bị thử nghiệm
Ý nghĩa thực tiễn: GPU di động hiện có thể hỗ trợ các tác vụ trước đây yêu cầu phần cứng đắt tiền hoặc trung tâm dữ liệu chuyên dụng
Các thử nghiệm cho thấy tiết kiệm bộ nhớ đáng kể so với các mô hình truyền thống:
BitNet-1B (TQ1_0): Tiêu thụ tối đa 77.8% VRAM ít hơn Gemma-3-1B (16-bit)
So với Qwen3-0.6B: Tiết kiệm 65.6% VRAM so với phiên bản 16-bit
Những giảm này áp dụng cho cả tác vụ suy luận và tinh chỉnh LoRA, tạo ra không gian bộ nhớ đáng kể cho các mô hình lớn hơn và quy trình cá nhân hóa trên phần cứng trước đây xem là không đủ.
Framework cho phép tinh chỉnh các mô hình lớn gấp đôi trên thiết bị Edge so với các mô hình Q4 không dùng BitNet, chứng minh khả năng tiết kiệm bộ nhớ vượt trội của kiến trúc BitNet.
CEO của Tether, Paolo Ardoino, đã đặt ra tầm nhìn về AI dễ tiếp cận hơn: “Trí tuệ sẽ là yếu tố quyết định trong tương lai của xã hội. Khi huấn luyện các mô hình ngôn ngữ lớn phụ thuộc vào hạ tầng tập trung, đổi mới trở nên trì trệ, hệ sinh thái dễ bị tổn thương và cân bằng xã hội bị đe dọa. Bằng cách cho phép huấn luyện mô hình lớn trên phần cứng tiêu dùng, bao gồm điện thoại thông minh, QVAC của Tether chứng minh rằng AI tiên tiến có thể phi tập trung, bao gồm và trao quyền cho mọi người.”
Hiệu quả này giúp khả thi việc học liên kết, cho phép cập nhật tinh chỉnh được huấn luyện và chia sẻ qua các thiết bị phân tán trong khi giữ dữ liệu nhạy cảm của người dùng ở địa phương. Điều này giảm phụ thuộc vào hạ tầng trung tâm đồng thời thúc đẩy cải tiến mô hình hợp tác.
Bằng cách giảm phụ thuộc vào nhà cung cấp đám mây, framework cho phép người dùng giữ dữ liệu nhạy cảm tại chỗ trong quá trình tinh chỉnh, giải quyết các mối lo ngại về quyền riêng tư khi truyền dữ liệu đến máy chủ trung tâm.
Việc ra mắt của Tether trực tiếp thách thức mô hình phát triển AI tập trung do các nhà cung cấp đám mây và hyperscaler chi phối. Bằng cách cho phép thực hiện các tác vụ AI ý nghĩa trên phần cứng tiêu dùng, công ty định vị mình như một nhà cung cấp hạ tầng trong hệ sinh thái AI Edge, độc lập với các khu vực đám mây truyền thống.
Framework, bao gồm bài báo, bộ điều hợp, benchmark và các tệp nhị phân đa nền tảng, có sẵn trên Hugging Face. Phương pháp mã nguồn mở này nhằm thiết lập QVAC như một con đường mặc định cho các nhà phát triển độc lập và các phòng lab nhỏ triển khai AI trên phần cứng tiêu dùng, xây dựng tính phù hợp về văn hóa và kỹ thuật bên ngoài các khuôn khổ quy định truyền thống.
Việc ra mắt tiếp tục mở rộng của Tether ra khỏi lĩnh vực phát hành stablecoin sang hạ tầng kỹ thuật số quan trọng, sau các sáng kiến QVAC trước đó như bộ dữ liệu Genesis I 41 tỷ token và AI Workbench địa phương. Công ty đã báo hiệu sẽ tiếp tục đầu tư vào hạ tầng AI phi tập trung trong những tuần, tháng và năm tới.
Toàn bộ tài liệu kỹ thuật, bao gồm benchmark hiệu suất, chi tiết triển khai và các tệp nhị phân đa nền tảng, có sẵn qua blog Hugging Face: “Tinh chỉnh LoRA BitNet b1.58 LLMs trên GPU Edge đa dạng qua QVAC Fabric.”
Tether mô tả sứ mệnh của mình là thúc đẩy tự do, minh bạch và đổi mới thông qua công nghệ, cho phép trao đổi thông tin trực tiếp peer-to-peer mà không cần trung gian không cần thiết. Công ty hướng tới thay thế các mô hình tập trung bằng hạ tầng phi tập trung được thiết kế cho quyền riêng tư, hiệu quả và khả năng phục hồi.
Framework QVAC Fabric BitNet LoRA hỗ trợ GPU tiêu dùng của AMD, Intel và NVIDIA; hệ sinh thái Apple gồm chip Silicon M và GPU di động Bionic; cùng các GPU di động như Adreno (Samsung), Mali và các loại khác. Điều này cho phép tinh chỉnh AI trên laptop, máy tính để bàn và điện thoại thông minh cao cấp mà không cần phần cứng doanh nghiệp chuyên dụng.
Theo benchmark của Tether, suy luận dựa trên GPU trên các thiết bị di động cao cấp nhanh hơn CPU từ 2 đến 11 lần. Việc sử dụng bộ nhớ giảm tới 77.8% so với các mô hình truyền thống, cho phép chạy các mô hình lớn hơn trong cùng giới hạn phần cứng.
Tinh chỉnh mô hình 13 tỷ tham số trên điện thoại thể hiện bước tiến lớn so với các ví dụ thường thấy về AI trên thiết bị, vốn thường xoay quanh các mô hình dưới 3 tỷ tham số hoặc chuyển tải các tác vụ nặng hơn lên đám mây. Khả năng này mở ra tương lai nơi cá nhân hóa mô hình và thích ứng theo lĩnh vực có thể diễn ra tại chỗ, không cần gửi dữ liệu người dùng đến máy chủ trung tâm.