Notícias do Gate News, em 19 de março, a Xiaomi lançou oficialmente a série de modelos de IA MiMo-V2, que inclui o modelo de inferência de ponta Pro, a base multimodal Omni e a síntese de voz TTS.
O MiMo-V2-Pro possui mais de 1 trilhão de parâmetros totais (42B parâmetros ativados), suporta um contexto de mais de 1 milhão de tokens e foi projetado especificamente para cenários de trabalho de agentes. Está classificado em oitavo lugar no ranking Artificial Analysis globalmente e em segundo no país, além de estar em terceiro lugar nas avaliações PinchBench e ClawEval. Seu desempenho geral supera o Claude Sonnet 4.6 e aproxima-se do Opus 4.6, mas com um preço apenas 1/5 do último: entrada até 256K de contexto por $1, saída por $3/milhão de tokens; entrada até 1M de contexto por $2, saída por $6/milhão de tokens. O módulo MiMo Claw já está integrado na ecologia do WebOffice da Kingsoft, com sincronização no WPS Lingxi.
O MiMo-V2-Omni é uma base multimodal que suporta entrada de texto, imagem, áudio e vídeo, com um contexto de 256K, com preços de entrada de $0.4 e saída de $2/milhão de tokens. No aspecto de áudio, suporta compreensão de áudio contínuo por mais de 10 horas, superando a avaliação do Gemini 3 Pro; na compreensão de imagens, supera o Claude Opus 4.6 e aproxima-se do Gemini 3 Pro.
O MiMo-V2-TTS é baseado no seu próprio Audio Tokenizer, treinado com mais de uma bilhão de horas de dados de voz, suportando controle de múltiplos níveis, desde o estilo geral até emoções locais, podendo sintetizar vozes de alta qualidade, incluindo dialetos como o nordestino, Sichuanês, Henan, cantonês e o sotaque de Taiwan.
Os três modelos já estão integrados ao Xiaomi miclaw, MiMo Studio, Kingsoft Office e Xiaomi Browser, podendo ser acessados através dos frameworks de desenvolvimento de agentes OpenClaw, OpenCode, KiloCode, Blackbox e Cline, com uso gratuito por uma semana.