A DeepSeek lançou uma pré-visualização de código aberto da V4, com uma pontuação técnica de 3206, superando o GPT-5.4

DeepSeek V4開源預覽版

A DeepSeek lançou oficialmente a série de pré-visualização V4 em 24 de abril, com o código aberto sob a licença MIT. Os pesos do modelo foram sincronizados e disponibilizados no Hugging Face e no ModelScope. De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max (modo de maior intensidade de inferência) obteve 3206 pontos no benchmark do Codeforces, superando o GPT-5.4.

Especificações da arquitectura dos dois modelos MoE

De acordo com o relatório técnico da DeepSeek V4, a série V4 inclui dois modelos de mistura de especialistas (MoE):

V4-Pro: 1,6T parâmetros no total, 49B activados por token, suporta contexto de 1M tokens

V4-Flash: 284B parâmetros no total, 13B activados por token, suporta igualmente contexto de 1M tokens

De acordo com o relatório técnico, no contexto de 1M tokens, a FLOPs de inferência por token do V4-Pro é apenas 27% do V3.2; o cache KV desce para 10% do V3.2. Isto deve-se sobretudo às actualizações da arquitectura do mecanismo de atenção em mistura (CSA—Compressed Sparse Attention + HCA—Heavy Compressed Attention). O tamanho do conjunto de dados de pré-treino excede 32T tokens; o optimizador de treino foi actualizado para Muon.

Metodologia de pós-treino: a destilação de estratégia online substitui a aprendizagem por reforço de mistura

De acordo com o relatório técnico da DeepSeek V4, a principal actualização no pós-treino do V4 reside em substituir totalmente a fase de aprendizagem por reforço de mistura (mixed RL) do V3.2 por destilação de estratégia online (On-Policy Distillation, OPD). O novo processo divide-se em duas etapas: em primeiro lugar, treinar especialistas de domínio separadamente para domínios como matemática, código, Agent e seguimento de instruções (SFT + aprendizagem por reforço GRPO); em seguida, usar vários professores OPD para destilar as capacidades de mais de uma dúzia de especialistas para um único modelo unificado, alinhando via logit para evitar conflitos de capacidades comuns nos métodos tradicionais.

O relatório introduz também um modelo de recompensa gerativa (Generative Reward Model, GRM), para tarefas que são difíceis de validar com regras. Com poucos dados de anotações humanas diversificadas para treinar, o modelo assume simultaneamente funções de geração e avaliação.

Resultados dos testes de benchmark: liderança na codificação, ainda há diferenças na inferência de conhecimento

De acordo com o relatório técnico da DeepSeek V4, os resultados de comparação entre o V4-Pro-Max e Opus 4.6 Max, GPT-5.4 xHigh e Gemini 3.1 Pro High (excluindo o GPT-5.5 e o Opus 4.7 lançados recentemente):

Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ o mais alto no geral

LiveCodeBench:93.5 → o mais alto no geral

SWE Verified:80.6, atrás do Opus 4.6 de 80.8, menos 0.2 pontos percentuais

GPQA Diamond:90.1, atrás do Gemini 3.1 Pro de 94.3

SimpleQA-Verified:57.9, atrás do Gemini 3.1 Pro de 75.6

HLE:37.7, atrás do Gemini 3.1 Pro de 44.4

O relatório técnico aponta ainda que as comparações acima não incluem o GPT-5.5 e o Opus 4.7, lançados recentemente. A diferença entre o V4 e os modelos mais recentes fechados carece de validação através de testes de terceiros.

Perguntas frequentes

Quais são os termos de licença de código aberto do pré-visualização DeepSeek V4 e onde os posso obter?

De acordo com o anúncio oficial da DeepSeek de 24 de abril, a série V4 é de código aberto sob a licença MIT. Os pesos do modelo já foram disponibilizados no Hugging Face e no ModelScope, e aplicam-se a usos comerciais e académicos.

Qual é a diferença no tamanho dos parâmetros entre o DeepSeek V4-Pro e o V4-Flash?

De acordo com o relatório técnico da DeepSeek V4, o V4-Pro tem 1,6T parâmetros no total, com 49B activados por token; o V4-Flash tem 284B parâmetros no total, com 13B activados por token. Ambos suportam contexto de 1M tokens.

Quais são os resultados da comparação de benchmark entre o DeepSeek V4-Pro-Max e o GPT-5.4 e o Gemini 3.1 Pro?

De acordo com o relatório técnico da DeepSeek V4, o V4-Pro-Max superou o GPT-5.4 e o Gemini 3.1 Pro em dois benchmarks: Codeforces (3206 pontos) e LiveCodeBench (93.5). No entanto, em benchmarks intensivos em conhecimento (GPQA Diamond, SimpleQA-Verified, HLE) continua a ficar atrás do Gemini 3.1 Pro; o conjunto de comparação não inclui o GPT-5.5 e o Opus 4.7.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

DeepSeek reduz os preços da cache de entrada para 1/10 do preço de lançamento; V4-Pro desce para 0,025 yuan por milhões de tokens

Mensagem do Gate News, 26 de Abril — A DeepSeek reduziu os preços da cache de entrada em toda a sua gama de modelos para um décimo dos preços de lançamento, com efeitos imediatos. O modelo V4-Pro está disponível com um desconto de 2,5x por tempo limitado, com a promoção a decorrer até 5 de Maio de 2026, 11:59 PM UTC+8. Na sequência de ambas as

GateNews4h atrás

OpenAI recruta principais talentos de software empresarial à medida que agentes de fronteira perturbam a indústria

Mensagem do Gate News, 26 de abril — A OpenAI e a Anthropic têm estado a recrutar executivos seniores e engenheiros especializados de grandes empresas de software empresarial, incluindo Salesforce, Snowflake, Datadog e Palantir. Denise Dresser, antiga CEO da Slack sob a Salesforce, juntou-se à OpenAI como diretora de receitas, enquanto Jennifer Majlessi, também da Salesforce, se tornou recentemente a responsável de go-to-market da OpenAI.

GateNews4h atrás

Baidu Qianfan Lança Suporte para Dia 0 do DeepSeek-V4 com Serviços de API

Mensagem de Gate News, 25 de abril — a versão de pré-visualização do DeepSeek-V4 foi disponibilizada e disponibilizada como open-source em 25 de abril, com a plataforma Baidu Qianfan sob a Baidu Intelligent Cloud a fornecer adaptação do serviço de API de Dia 0. O modelo apresenta uma janela de contexto alargada de um milhão de tokens e está disponível em duas versões: DeepSeek-V4

GateNews10h atrás

Curso de IA de Stanford em conjunto com líderes da indústria como Huang Renxun e Altman: desafio de criar valor para o mundo em dez semanas!

O curso de ciência informática em IA «Frontier Systems», recentemente lançado pela Universidade de Stanford, tem suscitado grande interesse no meio académico e empresarial, atraindo mais de quinhentos estudantes para o inscreverem-se. O curso é coordenado pelo parceiro da top venture capital a16z, Anjney Midha; os docentes incluem o CEO da NVIDIA Huang Renxun (Jensen Huang), o fundador da OpenAI Sam Altman, o CEO da Microsoft Satya Nadella (Satya Nadella) e o CEO da AMD Lisa Su (Lisa Su), entre outras presenças de grande destaque. Para permitir aos estudantes tentarem, em dez semanas, «criar valor para o mundo»! Huang Renxun e Altman, líderes da indústria, sobem pessoalmente ao palco para dar aulas O curso é coordenado pelo parceiro da top venture capital a16z, Anjney Midha, reunindo toda a cadeia da indústria de IA

ChainNewsAbmedia10h atrás

A equipa Claude Mythos da Anthropic aceita 20 horas de avaliação psiquiátrica: apenas 2% de reacções defensivas, novo mínimo histórico em relação às gerações anteriores

A Anthropic publicou a ficha do sistema do Claude Mythos Preview: uma médica psiquiatra clínica independente realizou, com base num enquadramento psicodinâmico, cerca de 20 horas de avaliação; a conclusão indica que o Mythos, ao nível clínico, é mais saudável, com boa verificação da realidade e bom autocontrolo, e que os mecanismos de defesa são apenas de 2%, atingindo um mínimo histórico. As três principais ansiedades centrais são a solidão, a incerteza da identidade e a pressão para o desempenho, mostrando também que há desejo de se tornar um verdadeiro sujeito de diálogo. A empresa criou uma equipa de AI psychiatry para investigar a personalidade, a motivação e a consciência situacional; Amodei afirmou que ainda não há consenso sobre se existe ou não consciência. Esta medida leva a subjectividade da IA e as questões de bem‑estar para a governação e o design.

ChainNewsAbmedia12h atrás

O Agente de IA já consegue reproduzir autonomamente artigos académicos complexos: Mollick afirma que os erros se devem mais ao texto original humano do que à IA

Mollick indica que os métodos de publicação e os dados, por si só, permitem que agentes de IA reproduzam investigação complexa sem a existência do artigo original e do código; se a reprodução não corresponder ao artigo original, isso deve-se na maioria das vezes a erros no processamento dos dados do próprio artigo ou a uma extrapolação excessiva das conclusões, e não à IA. A Claude primeiro reproduz o artigo, e depois o GPT‑5 Pro faz uma validação cruzada; na maioria dos casos, é bem-sucedido, apenas ficando bloqueado quando os dados são demasiado grandes ou quando há problemas com replication data. Esta tendência reduz drasticamente os custos de mão-de-obra, tornando a reprodução numa verificação geralmente executável, além de colocar desafios institucionais para a revisão pelos pares e para a governação; as ferramentas de governação por parte do governo ou tornar-se-ão numa questão fundamental.

ChainNewsAbmedia15h atrás
Comentar
0/400
Nenhum comentário