A DeepSeek Lança a Série de Modelos Open-Source V4 com 1,6T Parâmetros e Licença MIT

Mensagem do Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis na Hugging Face e na ModelScope. A série inclui dois modelos (MoE) de mixture-of-experts: V4-Pro com 1,6 biliões de parâmetros totais e 49 mil milhões ativados por token, e V4-Flash com 284 mil milhões de parâmetros totais e 13 mil milhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.

A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), que reduz significativamente a sobrecarga do contexto longo — as FLOPs de inferência do V4-Pro para 1M de contexto são apenas 27% das do V3.2, e a cache KV (VRAM para armazenar informação histórica durante a inferência) é apenas 10% da do V3.2; ligações hipernasifold-constrained (mHC) que substituem as ligações residuais tradicionais para melhorar a estabilidade da propagação do sinal entre camadas; e o otimizador Muon para uma convergência de treino mais rápida. O pré-treino usou mais de 32 biliões de tokens de dados.

O pós-treino emprega uma abordagem em duas etapas: primeiro treinar especialistas específicos de domínio via supervised fine-tuning (SFT) e aprendizagem por reforço GRPO, depois fundi-los num único modelo através de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo open-source mais forte, com benchmarks de codificação topo de gama e lacunas significativamente reduzidas face a modelos frontier com código fechado em tarefas de raciocínio e agentes. O V4-Flash-Max atinge desempenho de raciocínio ao nível do Pro com um orçamento computacional suficiente, mas é limitado pela escala de parâmetros em tarefas puras de conhecimento e tarefas complexas de agentes. Os pesos são armazenados em precisão mista FP4+FP8.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A NDRC da China instrui empresas de IA, incluindo a Moonshot e a StepFun, a rejeitar capital dos EUA sem aprovação

Mensagem do Gate News, 25 de abril — A Comissão Nacional de Desenvolvimento e Reforma da China (NDRC) instruiu várias empresas de IA a rejeitarem capital dos EUA nas últimas semanas, a menos que obtenham aprovação explícita do governo, segundo a Bloomberg citando fontes informadas. A Moonshot AI e a StepFun, ambas a preparar-se para f

GateNews10m atrás

Juiz dos EUA rejeita alegações de fraude de Musk contra a OpenAI e Altman

Mensagem da Gate News, 25 de Abril — Um juiz dos EUA rejeitou as acusações de fraude apresentadas por Elon Musk contra a OpenAI e o cofundador da OpenAI, Sam Altman, no seu processo em curso contra a empresa. O tribunal decidiu que as alegações de fraude não avançarão, embora o juiz tenha marcado audiências adicionais para abordar as restantes alegações de Musk no caso.

GateNews30m atrás

Por que é que uma boa notícia da Intel impulsionou uma forte alta das ações da Nvidia?

As receitas por ação (EPS) da Intel nesta temporada foram de 0,29 USD, e as receitas de 13,6 mil milhões de USD, superando ambas as expectativas; a atualização da dinâmica nos centros de dados e nos equipamentos de computação voltou a ganhar força, reforçando a confiança na procura de semicondutores e de IA. Este fator positivo impulsionou a cotação da Nvidia cerca de 4,9% ao meio-dia; o mercado considera que a procura por capacidade de computação de base continua forte, reduzindo as preocupações com uma bolha de IA, e apoiando as expectativas de crescimento de longo prazo da Nvidia. A concorrência entre as duas também se traduziu numa ligação positiva entre setores.

ChainNewsAbmedia5h atrás

China e EUA defrontam-se em rivalidade de IA sobre acusações de destilação de modelos e restrições ao investimento

Mensagem do Gate News, 24 de abril — A China rejeitou as acusações dos EUA de que os seus gigantes tecnológicos estão a explorar a tecnologia de IA norte-americana através de destilação em escala industrial, à medida que ambos os países se preparam para um grande choque relacionado com o desenvolvimento de IA e o controlo do investimento. A administração Trump está a preparar-se para

GateNews7h atrás

Alphabet vai investir até $40 mil milhões na Anthropic, reforçando a concorrência em IA

Mensagem da Gate News, 24 de abril — A Alphabet, empresa-mãe do Google, planeia investir até $40 mil milhões no developer de IA Anthropic, num montante de $10 mil milhões adiantados e $30 mil milhões em financiamento adicional condicionado à obtenção de certos marcos de desempenho. Este investimento segue a participação anterior de 14% da Alphabet na Anthropic e

GateNews9h atrás

O regulador suíço FINMA alerta que a ferramenta de IA Mythos da Anthropic representa risco financeiro

Mensagem do Gate News, 24 de abril — a Autoridade de Supervisão dos Mercados Financeiros da Suíça (FINMA) afirmou que permitir que os bancos adoptem de forma rápida e conveniente a ferramenta de inteligência artificial da Anthropic Mythos representaria riscos sérios para o

GateNews9h atrás
Comentar
0/400
Nenhum comentário