O DeepSeek lançou versões de prévia do DeepSeek-V4-Pro e do DeepSeek-V4-Flash em 24 de abril de 2026; ambos são modelos de peso aberto com janelas de contexto de um milhão de tokens e preços significativamente abaixo das alternativas ocidentais comparáveis. O modelo V4-Pro custa US$ 1,74 por milhão de tokens de entrada e US$ 3,48 por milhão de tokens de saída — aproximadamente 1/20 do preço do Claude Opus 4.7 e 98% a menos que o GPT-5.5 Pro, de acordo com as especificações oficiais da empresa.

Arquitetura do Modelo e Escala

O DeepSeek-V4-Pro tem 1,6 trilhão de parâmetros totais, tornando-o o maior modelo open-source do mercado de LLMs até hoje. No entanto, apenas 49 bilhões de parâmetros são ativados por passagem de inferência, usando o que o DeepSeek chama de abordagem Mixture-of-Experts, refinada desde a V3. Esse design permite que o modelo completo fique em estado dormente enquanto apenas fatias relevantes ativam para qualquer solicitação dada, reduzindo custos de computação enquanto mantém capacidade de conhecimento.

O DeepSeek-V4-Flash opera em uma escala menor, com 284 bilhões de parâmetros totais e 13 bilhões de parâmetros ativos. De acordo com os benchmarks do DeepSeek, ele “alcança desempenho de raciocínio comparável ao da versão Pro quando recebe um orçamento maior de pensamento”.

Ambos os modelos suportam um milhão de tokens de contexto como recurso padrão—aproximadamente 750.000 palavras, ou aproximadamente toda a trilogia de “O Senhor dos Anéis” mais texto adicional.

Inovação Técnica: Mecanismos de Atenção em Escala

O DeepSeek resolveu o problema de escalabilidade computacional inerente ao processamento de longo contexto ao inventar dois novos tipos de atenção, conforme detalhado no artigo técnico da empresa disponível no GitHub.

Os mecanismos padrão de atenção de IA enfrentam um problema brutal de escalabilidade: toda vez que o tamanho do contexto dobra, o custo computacional aumenta aproximadamente quatro vezes. A solução do DeepSeek envolve duas abordagens complementares:

Atenção Esparsa Comprimida funciona em dois passos. Primeiro, ela comprime grupos de tokens—por exemplo, a cada 4 tokens—em uma única entrada. Depois, em vez de atender a todas as entradas comprimidas, ela usa um “Lightning Indexer” para selecionar apenas os resultados mais relevantes para qualquer consulta dada. Isso reduz o escopo de atenção do modelo de um milhão de tokens para um conjunto muito menor de chunks importantes.

Atenção Fortemente Comprimida adota uma abordagem ainda mais agressiva, colapsando cada 128 tokens em uma única entrada sem seleção esparsa. Embora isso perca detalhes de granularidade fina, fornece uma visão global extremamente barata. Os dois tipos de atenção rodam em camadas alternadas, permitindo ao modelo manter tanto detalhes quanto uma visão geral.

O resultado: a V4-Pro usa 27% da computação que seu predecessor (V3.2) exigia. O cache KV—memória necessária para rastrear contexto—cai para 10% do V3.2. A V4-Flash empurra a eficiência ainda mais: 10% de computação e 7% de memória em comparação com a V3.2.

Desempenho em Benchmarks e Posição Competitiva

O DeepSeek publicou comparações abrangentes de benchmarks contra GPT-5.4 e Gemini-3.1-Pro, incluindo áreas em que a V4-Pro fica atrás dos concorrentes. Em tarefas de raciocínio, o raciocínio da V4-Pro fica atrás do GPT-5.4 e do Gemini-3.1-Pro em aproximadamente três a seis meses, de acordo com o relatório técnico do DeepSeek.

Onde a V4-Pro lidera:

Codeforces (programação competitiva): a V4-Pro marcou 3.206, ficando em torno do 23º lugar entre participantes humanos reais do concurso
Apex Shortlist (problemas de matemática e STEM curados): taxa de aprovação de 90,2% versus 85,9% do Opus 4.6 e 78,1% do GPT-5.4
SWE-Verified (resolução de issues do GitHub): 80,6%, empatando com a Claude Opus 4.6

Onde a V4-Pro fica atrás:

MMLU-Pro (multitasking): Gemini-3.1-Pro em 91,0% versus V4-Pro em 87,5%
GPQA Diamond (conhecimento especializado): Gemini em 94,3 versus V4-Pro em 90,1
Humanity’s Last Exam (nível de graduação): Gemini-3.1-Pro em 44,4% versus V4-Pro em 37,7%

Em tarefas de longo contexto, a V4-Pro lidera modelos open-source e supera o Gemini-3.1-Pro no CorpusQA (simulando análise real de documentos em um milhão de tokens), mas perde para a Claude Opus 4.6 no MRCR, que mede a recuperação de informações específicas enterradas profundamente em textos longos.

Capacidades de Agentes e de Codificação

A V4-Pro pode rodar em Claude Code, OpenCode e outras ferramentas de codificação de IA. De acordo com a pesquisa interna do DeepSeek com 85 desenvolvedores que usaram a V4-Pro como agente de codificação primário, 52% disseram que ela estava pronta para ser o modelo padrão deles, 39% penderam para sim, e menos de 9% disseram não. Testes internos do DeepSeek indicaram que a V4-Pro supera Claude Sonnet e se aproxima da Claude Opus 4.5 em tarefas de codificação agentic.

A Artificial Analysis classificou a V4-Pro em primeiro entre todos os modelos open-weight no GDPval-AA, um benchmark que testa trabalho de conhecimento economicamente valioso em tarefas de finanças, jurídico e pesquisa. A V4-Pro-Max marcou 1.554 Elo, à frente do GLM-5.1 (1.535) e do MiniMax’s M2.7 (1.514). A Claude Opus 4.6 pontua 1.619 no mesmo benchmark.

A V4 introduz “pensamento intercalado”, que mantém toda a cadeia de pensamento ao longo das chamadas de ferramentas. Em modelos anteriores, quando um agente fazia múltiplas chamadas de ferramentas—como buscar na web, executar código e então buscar novamente—o contexto de raciocínio do modelo era descartado entre as rodadas. A V4 mantém a continuidade do raciocínio entre etapas, evitando perda de contexto em fluxos de trabalho automatizados complexos.

Cenário Competitivo e Contexto de Preços

O lançamento da V4 chega em meio a uma atividade significativa no espaço de IA. A Anthropic enviou o Claude Opus 4.7 em 16 de abril de 2026. O GPT-5.5 da OpenAI foi lançado em 23 de abril de 2026, com o GPT-5.5 Pro custando $30 por milhão de tokens de entrada e $180 por milhão de tokens de saída. O GPT-5.5 supera a V4-Pro no Terminal Bench 2.0 (82,7% versus 70,0%), que testa fluxos de trabalho complexos de agentes via linha de comando.

A Xiaomi lançou o MiMo V2.5 Pro em 22 de abril de 2026, oferecendo capacidades multimodais completas (imagem, áudio, vídeo) a $1 entrada e $3 saída por milhão de tokens. A Tencent lançou a Hy3 no mesmo dia do GPT-5.5.

Para ter perspectiva de preços: o CEO da Cline, Saoud Rizwan, observou que, se o Uber tivesse usado o DeepSeek em vez do Claude, o orçamento de IA de 2026 — supostamente suficiente para quatro meses de uso — teria durado sete anos.

Implantação e Disponibilidade

Tanto a V4-Pro quanto a V4-Flash são licenciadas pela MIT e estão disponíveis no Hugging Face. Os modelos são apenas de texto por enquanto; o DeepSeek afirmou que está trabalhando em capacidades multimodais. Ambos os modelos podem ser executados gratuitamente em hardware local ou personalizados com base nas necessidades da empresa.

Os endpoints existentes deepseek-chat e deepseek-reasoner do DeepSeek já roteiam para a V4-Flash nos modos sem pensamento e com pensamento, respectivamente. Os antigos endpoints deepseek-chat e deepseek-reasoner serão aposentados em 24 de julho de 2026.

O DeepSeek treinou a V4 parcialmente com chips Huawei Ascend, contornando restrições de exportação dos EUA. A empresa afirmou que, quando 950 novos supernós entrarem em operação mais tarde em 2026, o preço já baixo do modelo Pro vai cair ainda mais.

Implicações Práticas

Para empresas, a estrutura de preços pode mudar os cálculos de custo-benefício. Um modelo que lidera benchmarks open-source a US$ 1,74 por milhão de tokens de entrada torna o processamento em larga escala de documentos, revisão jurídica e pipelines de geração de código substancialmente mais baratos do que seis meses antes. O contexto de um milhão de tokens permite que bases inteiras de código ou dossiês regulatórios sejam processados em um único pedido em vez de serem fragmentados em múltiplas chamadas.

Para desenvolvedores e criadores individuais, a V4-Flash é a consideração principal. A US$ 0,14 de entrada e US$ 0,28 de saída por milhão de tokens, ela é mais barata do que modelos considerados opções econômicas um ano atrás, enquanto lida com a maioria das tarefas que a versão Pro faz.

Ver fonte

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Comentário

0/400

Semi-MeltedIceCream

· 19h atrás

Parece uma descrição de um RPA + LLM que pode clicar botões, executar fluxos e preencher formulários? Se for estável o suficiente, muitas posições de suporte administrativo precisarão ser reformuladas.

Ver originalResponder0

MirrorBallPeeking

· 04-25 09:29

Mais preocupados com permissões e segurança: como ele obtém permissões do sistema, como evitar exclusões acidentais de arquivos, como lidar com dados confidenciais, as empresas certamente enfrentam dificuldades na produção.

Ver originalResponder0

AprDaydream

· 04-24 14:10

Espero que as autoridades forneçam um mecanismo de registro de ações/audição auditável, caso contrário, será difícil responsabilizar alguém em caso de problemas, especialmente em contas de ativos operadas automaticamente.

Ver originalResponder0

PaperHandsPro

· 04-24 14:06

A "compreensão de intenção" na aplicação prática é realmente o ponto difícil, espero que não volte a acontecer aquela situação constrangedora de você querer reservar um voo e ela alterar seu currículo.

Ver originalResponder0

Half-SectionedSucculent

· 04-24 14:02

Estou um pouco ansioso, e um pouco assustado: poder clicar com o mouse equivale a fazer muitas das coisas que só podem ser feitas com "cliques humanos", então o controle de risco e a luta contra fraudes precisam ser aprimorados.

Ver originalResponder0

ACalmnessWithAHintOfPomelo

· 04-24 13:59

Essa onda também impacta o Web3, né? Se operações automatizadas na cadeia, processos de assinatura e interações com carteiras puderem ser feitos de forma fluida, a forma do produto vai mudar.

Ver originalResponder0

StarsInTheGlassDome

· 04-24 13:57

API e preços, primeiro não se apresse, primeiro veja se ele consegue resistir a janelas pop-up, múltiplas janelas e oscilações de rede em ambientes desktop complexos.

Ver originalResponder0

GateUser-b665e41c

· 04-24 13:55

Sentir a evolução de "saber falar e escrever" para "saber fazer e entregar", o próximo passo é fornecer a ela uma memória melhor e gerenciamento de tarefas.

Ver originalResponder0

LintCollector

· 04-24 13:55

Se realmente for possível conectar entre aplicativos: pesquisar no navegador → processar no Excel → criar apresentação no PPT → enviar por e-mail, então será um ciclo completo de fluxo de trabalho de escritório.

Ver originalResponder0

DegenWithNotebook

· 04-24 13:55

Finalmente chegou à operação nativa na área de trabalho? Agora realmente vai ser um "estagiário digital".

Ver originalResponder0

Ver projetos