Xiaomi раскрывает подробности обучения MiMo-V2-Pro: 1T параметров модели, тысячи развернутых GPU

Сообщение Gate News, 24 апреля — руководитель команды большой языковой модели Xiaomi Луо Фули в подробном интервью раскрыла, что модель MiMo-V2-Pro в сумме имеет 1 триллион параметров и для обучения потребовала тысячи GPU. Она отметила, что масштаб 1T представляет собой минимальный порог для достижения производительности, приближающейся к уровню Claude Opus 4.6, и получения конкурентного входного билета на следующий этап ИИ-агентов.

Технически версия Pro использует механизм экстремально разреженного внимания с соотношением 7:1 между глобальным вниманием и вниманием в скользящем окне, чтобы контролировать затраты на инференс при обработке длинного контекста. Модель также сохраняет архитектуру MTP (Multi-Token Prediction), чтобы задействовать избыточную вычислительную мощность для более быстрого инференса.

Со стороны управления команда MiMo численностью 100 человек имеет лишь 30–40 сотрудников, непосредственно вовлеченных в ключевые итерации. Команда работает без формальных иерархий или явных делений на подгруппы и без фиксированных дедлайнов поставки. При столкновении с нестабильными численными проблемами, такими как всплески training loss, команда в первую очередь приостанавливает обучение для расследования, даже если это означает остановку работы на одну-две недели и понесение затрат в миллионы долларов на вычисления.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

Связанные статьи

DeepSeek добивается финансирования на $1.8B при оценке $20B Valuation на фоне исхода талантов

Сообщение Gate News, 25 апреля — DeepSeek планирует привлечь $1.8 млрд, оценивая компанию примерно в $20 billion, сообщает со ссылкой на источники, знакомые с ситуацией. По данным источников, усилия по привлечению средств предпринимаются на фоне существенной текучести кадров: несколько ключевых исследователей уходят, чтобы присоединиться к ByteDance, Tencent, Xiaomi и компании в сфере автономного вождения Horizon Robotics.

GateNews3ч назад

Судья отклонил обвинения во мошенничестве в иске Илона Маска к OpenAI; дело продвигается к суду с двумя оставшимися требованиями

Сообщение Gate News, 24 апреля — федеральный судья отклонил обвинения во мошенничестве из иска Илона Маска против OpenAI, Сэма Альтмана, Грега Брокмана и Microsoft, открыв путь к тому, чтобы дело перешло к судебному разбирательству по двум оставшимся эпизодам: нарушение благотворительного доверия и необоснованное обогащение. США.

GateNews7ч назад

Генеральный директор OpenAI Сэм Альтман приносит извинения за то, что не сообщил в полицию о запрещённом аккаунте школьного стрелка

Сообщение Gate News, 25 апреля — генеральный директор OpenAI Сэм Альтман извинился перед сообществом Тамборин в Канаде за то, что компания не уведомила полицию о запрещённом аккаунте, связанном с Джесси Ван Рутселаром, который в феврале убил восемь человек в школе, а затем покончил с собой. OpenAI

GateNews7ч назад

ОАЭ объявляют о переходе к модели AI-госуправления в ближайшие два года

Его Высочество шейх Мохаммед бин Рашид Аль Мактум заявил, что цель заключается в том, чтобы 50% государственных секторов работали через автономный агентный ИИ. Переход также будет включать обучение федеральных сотрудников, чтобы «освоить ИИ», и будет контролироваться шейхом Мансуром бин Заидом. Основные выводы:

Coinpedia7ч назад

Торговая платформа с ИИ Fere AI привлекла $1,3 млн при лидерстве Ethereal Ventures

Новостное сообщение Gate, 25 апреля — Fere AI, платформа для торговли цифровыми активами с использованием ИИ, объявила о завершении раунда финансирования на $1,3 млн под руководством Ethereal Ventures, при участии Galaxy Vision Hill и Kosmos Ventures, согласно Globenewswire. Платформа поддерживает кроссчейн-сети

GateNews8ч назад

Google удваивает ставку: инвестирует $40 млрд в Anthropic: сначала $10 млрд, затем $30 млрд — по результатам, выделяя вычислительные мощности TPU на 5 ГВт

Alphabet удваивает ставку на Anthropic до 40 млрд долларов, в два этапа: первая транш 10 млрд долларов в виде денежных средств, оценка 380 млрд долларов; оставшиеся 30 млрд долларов будут поэтапно высвобождены после достижения целевых показателей. Google Cloud в течение пяти лет предоставляет вычислительные ресурсы TPU в объеме 5 GW; параллельно Amazon также объявила о максимальных инвестициях в размере 25 млрд долларов, что демонстрирует, что вычислительная мощность и поддержка капиталом Anthropic одновременно усиливаются.

ChainNewsAbmedia9ч назад
комментарий
0/400
Нет комментариев