A Xiaomi revela detalhes do treino do MiMo-V2-Pro: parâmetros do modelo 1T, milhares de GPUs implementadas

GateNews

2026-04-24 04:57:28

Mensagem do Gate News, 24 de Abril — A responsável da equipa de modelos de linguagem da Xiaomi, Luo Fuli, revelou numa entrevista aprofundada que o modelo MiMo-V2-Pro tem, no total, 1 bilião de parâmetros e que foram necessários milhares de GPUs para o treino. Ela referiu que a escala de 1T representa o limiar mínimo para obter desempenho a aproximar-se do nível do Claude Opus 4.6 e garantir um bilhete de entrada competitivo para a próxima fase dos agentes de IA.

Tecnicamente, a versão Pro utiliza um mecanismo de atenção esparsa extrema, com uma proporção de 7:1 entre a atenção global e a atenção por janela deslizante, controlando os custos de inferência para o processamento de longos contextos. O modelo mantém também a arquitectura MTP (Multi-Token Prediction) para aproveitar o poder de computação excedente e acelerar a inferência.

Do lado da gestão, a equipa MiMo, com 100 pessoas, tem apenas 30-40 indivíduos directamente envolvidos nas iterações centrais. A equipa opera sem hierarquias formais ou divisões explícitas em subgrupos e sem prazos de entrega. Quando se depara com problemas numéricos instáveis, como picos de perda durante o treino, a equipa dá prioridade a interromper o treino para investigação, mesmo que isso signifique parar as operações durante uma ou duas semanas e incorrer em milhões de dólares de custos de computação.

Ver fonte

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

A Anthropic Implementa Salvaguardas Eleitorais para o Claude Antes das Eleições Gerais de 2026

Notícias da indústria de IA

A Anthropic anunciou na sexta-feira um conjunto de medidas de integridade eleitoral concebidas para impedir que o seu chatbot de IA Claude seja usado como arma para espalhar desinformação ou manipular eleitores antes das eleições legislativas intercalares dos EUA de 2026 e de outras grandes contendas a nível mundial este ano. A sede da San Francisco-based

CryptoFrontier3h atrás

DeepRoute.ai Sistema avançado de assistência à condução supera o avanço de 300 000 veículos: Objetivo de 2026: uma frota de 1 milhão de veículos NOA da cidade

Notícias da indústria de IA

DeepRoute.ai anuncia que o seu avançado sistema de assistência à condução já foi implantado em mais de 300.000 veículos na China, tendo evitado mais de 180.000 potenciais incidentes ao longo do ano passado. A meta para 2026 é atingir 1 milhão de veículos na frota de NOA urbana, com uma utilização superior a 50%, sendo considerado um fator-chave para a comercialização em larga escala do Robotaxi. Este movimento mostra que a condução autónoma na China entrou numa utilização normalizada, ao mesmo tempo que cria uma distinção em relação ao percurso de integração vertical com os EUA, afetando o calendário da cadeia de abastecimento na Ásia-Pacífico.

ChainNewsAbmedia4h atrás

DeepSeek lança os modelos V4-Pro e V4-Flash a um custo 98% inferior ao do GPT-5.5 Pro da OpenAI

Notícias da indústria de IA

Notícias Gate, 25 de abril — A DeepSeek lançou versões de pré-visualização de V4-Pro e V4-Flash a 24 de abril, ambos modelos open-weight com janelas de contexto de um milhão de tokens. O V4-Pro tem 1,6 triliões de parâmetros no total, mas activa apenas 49 mil milhões por passagem de inferência utilizando uma arquitectura Mixture-of-Experts.

GateNews9h atrás

Juiz rejeita alegações de fraude no processo de Elon Musk contra a OpenAI; caso avança para julgamento com duas alegações remanescentes

Notícias da indústria de IA

Notícias do Gate, 24 de abril — Um juiz federal indeferiu as acusações de fraude do processo de Elon Musk contra a OpenAI, Sam Altman, Greg Brockman e a Microsoft, abrindo caminho para que o caso avance para julgamento com base em duas alegações que permanecem: violação de confiança fiduciária de caráter beneficente e enriquecimento sem causa. EUA.

GateNews12h atrás

O CEO da OpenAI, Sam Altman, pede desculpa por não ter denunciado às autoridades a conta banida do atirador da escola

Notícias da indústria de IA

Mensagem do Gate News, 25 de abril — O director executivo da OpenAI, Sam Altman, pediu desculpa à comunidade de Tamborine, no Canadá, pela falha da empresa em notificar a polícia sobre uma conta banida associada a Jesse Van Rootselaar, que matou oito pessoas numa escola em fevereiro antes de tirar a própria vida. OpenAI

GateNews13h atrás

Os EAU Anunciam uma Mudança Para um Modelo de Governo Baseado em IA nos Próximos Dois Anos

Agente de IA Notícias da indústria de IA

Sua Alteza o Sheikha Mohammed bin Rashid Al Maktoum afirmou que o objectivo era fazer com que 50% dos sectores do governo operassem através de IA agentic autónoma. A transição irá também incluir a formação dos funcionários federais para “dominar a IA” e será supervisionada por Sheikh Mansour bin Zayed. Principais Conclusões:

Coinpedia13h atrás

Comentar

0/400

Nenhum comentário