DeepSeek lança série de modelos de código aberto V4 com 1,6T de parâmetros e Licença MIT

Mensagem de Gate News, 24 de abril — A DeepSeek lançou a série V4 de modelos de código aberto sob a Licença MIT, com pesos agora disponíveis no Hugging Face e no ModelScope. A série inclui dois modelos (MoE) de especialistas em mistura: V4-Pro com 1,6 trilhão de parâmetros totais e 49 bilhões ativados por token, e V4-Flash com 284 bilhões de parâmetros totais e 13 bilhões ativados por token. Ambos suportam uma janela de contexto de 1 milhão de tokens.

A arquitetura traz três melhorias principais: um mecanismo de atenção híbrido que combina atenção esparsa comprimida (CSA) e atenção fortemente comprimida (HCA), reduzindo significativamente a sobrecarga de contextos longos — os FLOPs de inferência do V4-Pro para contexto de 1M são apenas 27% dos do V3.2, e o cache de KV (VRAM para armazenar informações históricas durante a inferência) é apenas 10% do do V3.2; hipervínculos com restrição de manifold (mHC) substituindo conexões residuais tradicionais para aprimorar a estabilidade da propagação de sinais entre camadas; e o otimizador Muon para acelerar a convergência do treinamento. O pré-treinamento usou mais de 32 trilhões de tokens de dados.

O pós-treinamento emprega uma abordagem em duas etapas: primeiro, treinar especialistas específicos de domínio via fine-tuning supervisionado (SFT) e aprendizado por reforço com GRPO, depois fundi-los em um único modelo por meio de distilação online. O V4-Pro-Max (highest inference mode) afirma ser o modelo de código aberto mais forte, com benchmarks de codificação de ponta e lacunas significativamente reduzidas em relação a modelos de fronteira de código fechado em tarefas de raciocínio e de agentes. O V4-Flash-Max atinge desempenho de raciocínio no nível do Pro com orçamento de computação suficiente, mas é limitado pela escala de parâmetros em tarefas puramente de conhecimento e tarefas de agentes complexas. Os pesos são armazenados em precisão mista FP4+FP8.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

DeepSeek V4 Consegue Pontuação Perfeita no Putnam-2025, Empata com Axiom em Raciocínio Matemático Formal

Mensagem do Gate News, 24 de abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, alcançando uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar. No regime prático usando LeanExplore e amostragem restrita, o V4-Flash-Max obteve 81.00 no

GateNewsAgora mesmo

Qual IA mostra mais claramente seu status e posição? Pesquisa revela que a renda dos usuários do Claude é muito maior do que a de seus pares, e a Meta AI fica na parte de baixo

A pesquisa da Epoch AI mostra que os usuários do Claude são predominantemente de faixas de alta renda, com 80% tendo uma renda anual acima de US$ 100.000; a distribuição de renda do Meta AI é a mais ampla, com 36,5% acima de US$ 100.000, e a maior proporção é entre os de baixa renda; com o aumento do preço do Claude e a cobrança por níveis, os custos podem aumentar, enquanto o Meta é mais fácil para começar. Qual IA pode se tornar uma etiqueta de identidade implícita no futuro.

ChainNewsAbmedia5m atrás

V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Chegando Perto do Desempenho do Opus 4.5

Mensagem da Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding do seu modelo V4-Pro. A empresa coletou aproximadamente 200 tarefas reais de engenharia de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em stacks de tecnologia incluindo

GateNews20m atrás

O Reino Unido observa a Anthropic AI para fortalecer a cibersegurança bancária

O Reino Unido está explorando um grande passo em cibersegurança financeira ao trabalhar com a empresa de IA Anthropic. As primeiras discussões sugerem que o governo pode implantar o avançado modelo Claude Mythos da Anthropic em bancos e instituições financeiras. Essa medida visa aprimorar as defesas contra ameaças cibernéticas

CryptometerIo25m atrás

O Escritório de PI da China Adiciona IA, Semicondutores e Interfaces Cérebro-Computador ao Programa de Proteção com Tramitação Acelerada

Mensagem do Gate News, 24 de abril — A Administração Nacional de Propriedade Intelectual da China anunciou em 24 de abril que estabelecerá proteção abrangente de propriedade intelectual para tecnologias emergentes por meio de reformas institucionais, serviços aprimorados e aplicações ampliadas. A administração wi

GateNews31m atrás

O governo dos EUA opera um nó de Bitcoin sem mineração, indica o almirante

Um almirante sênior indicou que o Governo dos EUA está operando ativamente um nó na rede Bitcoin, enquanto deliberadamente evita participar das atividades de mineração. A divulgação sugere que as autoridades estão assumindo um papel mais envolvido na infraestrutura de blockchain para supervisão e

CryptoFrontier47m atrás
Comentário
0/400
Sem comentários