Tether Phát hành Framework LoRA BitNet Đa nền tảng để Đào tạo AI trên Các Thiết bị Người dùng

CryptopulseElite

2026-03-18 02:55:08

Chi nhánh QVAC của Tether công bố vào ngày 17 tháng 3 năm 2026, việc ra mắt framework tinh chỉnh LoRA đa nền tảng đầu tiên trên thế giới dành cho các mô hình BitNet của Microsoft (LLMs 1-bit), cho phép huấn luyện và suy luận AI với hàng tỷ tham số trên GPU tiêu dùng và điện thoại thông minh.

Framework này, tích hợp vào QVAC Fabric, giảm thiểu yêu cầu về bộ nhớ và tính toán đủ để tinh chỉnh các mô hình lên đến 13 tỷ tham số trên các thiết bị bao gồm iPhone 16, Galaxy S25 và Pixel 9, với các mô hình 125 triệu tham số có thể huấn luyện trong khoảng 10 phút trên phần cứng di động.

Việc ra mắt đánh dấu bước tiến quan trọng trong chiến lược chuyển đổi của Tether từ nhà phát hành stablecoin sang nhà cung cấp hạ tầng rộng hơn, thách thức mô hình phát triển AI tập trung do các nhà cung cấp đám mây và phần cứng NVIDIA chuyên dụng chi phối.

Đột phá kỹ thuật: BitNet LoRA trên thiết bị Edge

Khả năng đa nền tảng

Framework QVAC Fabric cho phép tinh chỉnh LoRA (Điều chỉnh theo Hạng thấp) và tăng tốc suy luận trên phần cứng tiêu dùng đa dạng, bao gồm:

GPU để bàn: AMD, Intel, NVIDIA

Hệ sinh thái Apple: Chip Apple Silicon M và GPU di động Bionic

GPU di động: Adreno (Samsung), Mali và các loại khác

Khả năng tương thích rộng này loại bỏ yêu cầu trước đây về hệ thống NVIDIA cấp doanh nghiệp hoặc hạ tầng đám mây, vốn tập trung phát triển AI trong các tổ chức có ngân sách phần cứng chuyên dụng.

Thử nghiệm hiệu suất trên di động

Đội ngũ kỹ thuật của Tether đã thể hiện thành công trong việc tinh chỉnh trên các điện thoại flagship với kết quả sau:

Mô hình 125 triệu tham số: Tinh chỉnh trên Samsung Galaxy S25 (GPU Adreno) hoàn thành trong khoảng 10 phút cho bộ dữ liệu y sinh gồm khoảng 300 tài liệu (~18k tokens)

Mô hình 1 tỷ tham số: Tinh chỉnh cùng bộ dữ liệu y sinh trên Samsung S25 mất 1 giờ 18 phút, còn trên iPhone 16 mất 1 giờ 45 phút

Công suất tối đa: Các mô hình lên đến 13 tỷ tham số đã được tinh chỉnh thành công trên iPhone 16, đẩy khả năng của thiết bị Edge vượt xa các ví dụ thường thấy với dưới 3 tỷ tham số

Tăng tốc suy luận

Suy luận BitNet trên GPU di động cho thấy tốc độ tăng đáng kể so với nền CPU:

Tăng tốc độ: GPU nhanh hơn CPU từ 2 đến 11 lần trên các thiết bị thử nghiệm
Ý nghĩa thực tiễn: GPU di động hiện có thể hỗ trợ các tác vụ trước đây yêu cầu phần cứng đắt tiền hoặc trung tâm dữ liệu chuyên dụng

Lợi ích về hiệu quả bộ nhớ

Giảm rõ rệt

Các thử nghiệm cho thấy tiết kiệm bộ nhớ đáng kể so với các mô hình truyền thống:

BitNet-1B (TQ1_0): Tiêu thụ tối đa 77.8% VRAM ít hơn Gemma-3-1B (16-bit)
So với Qwen3-0.6B: Tiết kiệm 65.6% VRAM so với phiên bản 16-bit

Những giảm này áp dụng cho cả tác vụ suy luận và tinh chỉnh LoRA, tạo ra không gian bộ nhớ đáng kể cho các mô hình lớn hơn và quy trình cá nhân hóa trên phần cứng trước đây xem là không đủ.

Ưu điểm kiến trúc

Framework cho phép tinh chỉnh các mô hình lớn gấp đôi trên thiết bị Edge so với các mô hình Q4 không dùng BitNet, chứng minh khả năng tiết kiệm bộ nhớ vượt trội của kiến trúc BitNet.

Ảnh hưởng chiến lược

Phi tập trung hóa phát triển AI

CEO của Tether, Paolo Ardoino, đã đặt ra tầm nhìn về AI dễ tiếp cận hơn: “Trí tuệ sẽ là yếu tố quyết định trong tương lai của xã hội. Khi huấn luyện các mô hình ngôn ngữ lớn phụ thuộc vào hạ tầng tập trung, đổi mới trở nên trì trệ, hệ sinh thái dễ bị tổn thương và cân bằng xã hội bị đe dọa. Bằng cách cho phép huấn luyện mô hình lớn trên phần cứng tiêu dùng, bao gồm điện thoại thông minh, QVAC của Tether chứng minh rằng AI tiên tiến có thể phi tập trung, bao gồm và trao quyền cho mọi người.”

Hỗ trợ học tập liên kết (Federated Learning)

Hiệu quả này giúp khả thi việc học liên kết, cho phép cập nhật tinh chỉnh được huấn luyện và chia sẻ qua các thiết bị phân tán trong khi giữ dữ liệu nhạy cảm của người dùng ở địa phương. Điều này giảm phụ thuộc vào hạ tầng trung tâm đồng thời thúc đẩy cải tiến mô hình hợp tác.

Lợi ích về quyền riêng tư dữ liệu

Bằng cách giảm phụ thuộc vào nhà cung cấp đám mây, framework cho phép người dùng giữ dữ liệu nhạy cảm tại chỗ trong quá trình tinh chỉnh, giải quyết các mối lo ngại về quyền riêng tư khi truyền dữ liệu đến máy chủ trung tâm.

Vị thế cạnh tranh

Thách thức vị thế độc quyền của các ông lớn công nghệ về AI

Việc ra mắt của Tether trực tiếp thách thức mô hình phát triển AI tập trung do các nhà cung cấp đám mây và hyperscaler chi phối. Bằng cách cho phép thực hiện các tác vụ AI ý nghĩa trên phần cứng tiêu dùng, công ty định vị mình như một nhà cung cấp hạ tầng trong hệ sinh thái AI Edge, độc lập với các khu vực đám mây truyền thống.

Phân phối mã nguồn mở

Framework, bao gồm bài báo, bộ điều hợp, benchmark và các tệp nhị phân đa nền tảng, có sẵn trên Hugging Face. Phương pháp mã nguồn mở này nhằm thiết lập QVAC như một con đường mặc định cho các nhà phát triển độc lập và các phòng lab nhỏ triển khai AI trên phần cứng tiêu dùng, xây dựng tính phù hợp về văn hóa và kỹ thuật bên ngoài các khuôn khổ quy định truyền thống.

Chuyển hướng chiến lược của Tether

Việc ra mắt tiếp tục mở rộng của Tether ra khỏi lĩnh vực phát hành stablecoin sang hạ tầng kỹ thuật số quan trọng, sau các sáng kiến QVAC trước đó như bộ dữ liệu Genesis I 41 tỷ token và AI Workbench địa phương. Công ty đã báo hiệu sẽ tiếp tục đầu tư vào hạ tầng AI phi tập trung trong những tuần, tháng và năm tới.

Tính khả dụng kỹ thuật

Toàn bộ tài liệu kỹ thuật, bao gồm benchmark hiệu suất, chi tiết triển khai và các tệp nhị phân đa nền tảng, có sẵn qua blog Hugging Face: “Tinh chỉnh LoRA BitNet b1.58 LLMs trên GPU Edge đa dạng qua QVAC Fabric.”

Về Tether

Tether mô tả sứ mệnh của mình là thúc đẩy tự do, minh bạch và đổi mới thông qua công nghệ, cho phép trao đổi thông tin trực tiếp peer-to-peer mà không cần trung gian không cần thiết. Công ty hướng tới thay thế các mô hình tập trung bằng hạ tầng phi tập trung được thiết kế cho quyền riêng tư, hiệu quả và khả năng phục hồi.

Các câu hỏi thường gặp

Phần cứng nào có thể chạy framework AI mới của Tether?

Framework QVAC Fabric BitNet LoRA hỗ trợ GPU tiêu dùng của AMD, Intel và NVIDIA; hệ sinh thái Apple gồm chip Silicon M và GPU di động Bionic; cùng các GPU di động như Adreno (Samsung), Mali và các loại khác. Điều này cho phép tinh chỉnh AI trên laptop, máy tính để bàn và điện thoại thông minh cao cấp mà không cần phần cứng doanh nghiệp chuyên dụng.

Tốc độ suy luận trên GPU di động nhanh hơn CPU bao nhiêu lần?

Theo benchmark của Tether, suy luận dựa trên GPU trên các thiết bị di động cao cấp nhanh hơn CPU từ 2 đến 11 lần. Việc sử dụng bộ nhớ giảm tới 77.8% so với các mô hình truyền thống, cho phép chạy các mô hình lớn hơn trong cùng giới hạn phần cứng.

Tinh chỉnh mô hình 13B tham số trên điện thoại có ý nghĩa gì?

Tinh chỉnh mô hình 13 tỷ tham số trên điện thoại thể hiện bước tiến lớn so với các ví dụ thường thấy về AI trên thiết bị, vốn thường xoay quanh các mô hình dưới 3 tỷ tham số hoặc chuyển tải các tác vụ nặng hơn lên đám mây. Khả năng này mở ra tương lai nơi cá nhân hóa mô hình và thích ứng theo lĩnh vực có thể diễn ra tại chỗ, không cần gửi dữ liệu người dùng đến máy chủ trung tâm.

Xem bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bình luận

0/400

Không có bình luận