Тестерський підрозділ QVAC оголосив 17 березня 2026 року про запуск першої у світі крос-платформенної рамки тонкого налаштування LoRA для моделей Microsoft BitNet (LLMs з 1 біт), що дозволяє тренувати та робити висновки штучного інтелекту з мільярдами параметрів на споживчих GPU та смартфонах.
Ця рамка, інтегрована у QVAC Fabric, зменшує вимоги до пам’яті та обчислень настільки, що дозволяє тонко налаштовувати моделі до 13 мільярдів параметрів на пристроях, включаючи iPhone 16, Galaxy S25 та Pixel 9, а моделі з 125 мільйонами параметрів можна тренувати приблизно за 10 хвилин на мобільному обладнанні.
Випуск є важливим кроком у стратегічному повороті Тетера від випуску стабільних монет до більш широкого інфраструктурного провайдера, що кидає виклик централізованій моделі розвитку ШІ, домінованій хмарними провайдерами та спеціалізованим обладнанням NVIDIA.
Рамка QVAC Fabric дозволяє тонке налаштування LoRA (Low-Rank Adaptation) та прискорення висновків на різноманітному споживчому обладнанні, зокрема:
Настільні GPU: AMD, Intel та NVIDIA
Екосистема Apple: чипи Apple Silicon M та мобільні GPU Bionic
Мобільні GPU: Adreno (Samsung), Mali та інші
Ця широка сумісність усуває попередню необхідність у корпоративних системах NVIDIA або хмарній інфраструктурі, що зосереджувала розвиток ШІ у організаціях із обмеженими бюджетами на спеціалізоване обладнання.
Інженерна команда Тетера продемонструвала успішне тонке налаштування на флагманських смартфонах із такими результатами:
Моделі з 125М параметрів: тонке налаштування на Samsung Galaxy S25 (GPU Adreno) за приблизно 10 хвилин для біомедичного набору даних (~300 документів, ~18 тис. токенів)
Моделі з 1 млрд параметрів: тонке налаштування тих самих біомедичних даних за 1 годину 18 хвилин на Samsung S25 та 1 годину 45 хвилин на iPhone 16
Максимальна ємність: успішне тонке налаштування моделей до 13 мільярдів параметрів на iPhone 16, що значно перевищує можливості звичайних демонстрацій з менше ніж 3 мільярдами параметрів
Висновки BitNet на мобільних GPU демонструють суттєве прискорення порівняно з базовими показниками CPU:
Покращення швидкості: продуктивність GPU у 2-11 разів швидша за CPU на протестованих пристроях
Практичний аспект: мобільні GPU тепер можуть підтримувати навантаження, раніше доступні лише за допомогою дорогого спеціалізованого обладнання або дата-центрів
Бенчмарки демонструють значну економію пам’яті у порівнянні з традиційними моделями:
BitNet-1B (TQ1_0): використовує до 77,8% менше VRAM, ніж Gemma-3-1B (16-біт)
у порівнянні з Qwen3-0.6B: на 65,6% менше VRAM, ніж 16-бітна версія
Ці зменшення застосовуються як до висновків, так і до тонкого налаштування LoRA, створюючи додатковий запас пам’яті для більших моделей та персоналізованих процесів на обладнанні, яке раніше вважалося недостатнім.
Рамка дозволяє тонке налаштування моделей у два рази більших на периферійних пристроях порівняно з моделями Q4 без BitNet, що демонструє переваги у пам’яті архітектури BitNet.
Генеральний директор Тетера Паоло Ардойно у контексті більш широкого бачення доступного ШІ сказав: «Інтелект буде ключовим фактором у майбутньому суспільства. Коли тренування великих мовних моделей залежить від централізованої інфраструктури, інновації застоюються, екосистема стає вразливою, а суспільна рівновага під загрозою. Забезпечуючи можливість тренувати великі моделі на споживчому обладнанні, включаючи смартфони, QVAC Тетера доводить, що передове ШІ може бути децентралізованим, інклюзивним і доступним для всіх.»
Підвищена ефективність робить можливим федеративне навчання, що дозволяє тренувати та обмінюватися оновленнями моделей між розподіленими пристроями, зберігаючи чутливі дані користувачів локально. Це зменшує залежність від централізованої інфраструктури та сприяє колективному покращенню моделей.
Зменшуючи залежність від хмарних провайдерів, рамка дозволяє користувачам зберігати чутливі дані локально під час тонкого налаштування, що вирішує питання приватності, пов’язані з передачею даних на централізовані сервери.
Випуск Тетера безпосередньо кидає виклик централізованій моделі розвитку ШІ, яку домінують гіперскалери та хмарні провайдери. Забезпечуючи можливість працювати з ШІ на споживчому обладнанні, компанія позиціонує себе як інфраструктурний гравець у краєвиді периферійного ШІ, незалежний від традиційних хмарних юрисдикцій.
Рамка, включно з документацією, адаптерами, бенчмарками та крос-платформенними бінарними файлами, доступна на Hugging Face. Такий відкритий підхід має на меті зробити QVAC стандартним шляхом для незалежних розробників і малих лабораторій для розгортання ШІ на споживчому обладнанні, створюючи культурну та технічну релевантність поза межами традиційних регуляторних рамок.
Випуск продовжує розширення Тетера за межі випуску стабільних монет у критичну цифрову інфраструктуру, слідом за попередніми ініціативами QVAC, включаючи набір даних Genesis I на 41 мільярд токенів та локальну платформу AI Workbench. Компанія заявила про подальші інвестиції у децентралізовану інфраструктуру ШІ у найближчі тижні, місяці та роки.
Повна технічна документація, включно з бенчмарками продуктивності, деталями реалізації та крос-платформенними бінарними файлами, доступна у блозі Hugging Face: “LoRA Fine-Tuning BitNet b1.58 LLMs on Heterogeneous Edge GPUs via QVAC Fabric.”
Тетер описує свою місію як просування свободи, прозорості та інновацій через технології, що дозволяє прямий обмін інформацією між рівноправними без зайвих посередників. Компанія прагне замінити централізовані моделі децентралізованою інфраструктурою, орієнтованою на приватність, ефективність і стійкість.
Рамка QVAC Fabric BitNet LoRA підтримує споживчі GPU від AMD, Intel та NVIDIA; екосистему Apple, включаючи чипи Silicon M та мобільні GPU Bionic; і мобільні GPU, зокрема Adreno (Samsung), Mali та інші. Це дозволяє тонке налаштування ШІ на ноутбуках, настільних ПК і флагманських смартфонах без спеціалізованого корпоративного обладнання.
За даними тестів Тетера, висновки на мобільних пристроях із GPU працюють у 2-11 разів швидше за базові показники CPU. Використання пам’яті зменшується до 77,8% у порівнянні з традиційними моделями, що дозволяє запускати більші моделі в межах тих самих обмежень обладнання.
Тонке налаштування моделі з 13 мільярдами параметрів на смартфоні є революційним кроком від звичайних демонстрацій ШІ на пристроях, які зазвичай зосереджені на моделях до 3 мільярдів або на перенесенні важких навантажень у хмару. Це відкриває шлях до локальної персоналізації моделей і адаптації до конкретних доменів без передачі даних користувачів на централізовані сервери.