DeepSeek V4 Obtém Pontuação Perfeita no Putnam-2025, Empata com a Axiom em Raciocínio Matemático Formal

Notícia do Gate, 24 de Abril — A DeepSeek V4 publicou resultados de avaliações de raciocínio matemático formal, obtendo uma pontuação perfeita de 120/120 no Putnam-2025, empatando com a Axiom pelo primeiro lugar.

No regime prático com LeanExplore e amostragem condicionada, o V4-Flash-Max marcou 81.00 no benchmark Putnam-200 Pass@8, superando significativamente o Seed-2.0-Prover (35.50), o Gemini 3 Pro (26.50) e o Seed-1.5-Prover (26.50). Os resultados do regime de fronteira mostraram o V4 à frente do Seed-1.5-Prover (110/120) e do Aristotle (100/120).

O V4 utiliza uma abordagem híbrida de raciocínio formal-informal: o raciocínio informal gera soluções candidatas em linguagem natural, a auto-verificação filtra os resultados e um agente formal completa provas rigorosas no Lean. Os resultados do regime de fronteira usaram escalamento computacional em grande escala, enquanto as pontuações do regime prático reflectem melhor as capacidades padrão de implementação.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

DeepSeek Atrasar o Lançamento do V4 para Optimizar para os Chips Ascend da Huawei

Mensagem do Gate News, 27 de Abril — A DeepSeek adiou o lançamento do seu modelo V4 para fazer afinações na sua pilha de software para os chips Ascend da Huawei, reflectindo a iniciativa mais ampla de Pequim para desenvolver uma cadeia de abastecimento de IA nacional à medida que o acesso a semicondutores estrangeiros avançados se torna cada vez mais limitado. DeepSe

GateNews39m atrás

DeepSeek reduz os preços da cache de entrada para 1/10 do preço de lançamento; V4-Pro desce para 0,025 yuan por milhões de tokens

Mensagem do Gate News, 26 de Abril — A DeepSeek reduziu os preços da cache de entrada em toda a sua gama de modelos para um décimo dos preços de lançamento, com efeitos imediatos. O modelo V4-Pro está disponível com um desconto de 2,5x por tempo limitado, com a promoção a decorrer até 5 de Maio de 2026, 11:59 PM UTC+8. Na sequência de ambas as

GateNews9h atrás

OpenAI recruta principais talentos de software empresarial à medida que agentes de fronteira perturbam a indústria

Mensagem do Gate News, 26 de abril — A OpenAI e a Anthropic têm estado a recrutar executivos seniores e engenheiros especializados de grandes empresas de software empresarial, incluindo Salesforce, Snowflake, Datadog e Palantir. Denise Dresser, antiga CEO da Slack sob a Salesforce, juntou-se à OpenAI como diretora de receitas, enquanto Jennifer Majlessi, também da Salesforce, se tornou recentemente a responsável de go-to-market da OpenAI.

GateNews9h atrás

Baidu Qianfan Lança Suporte para Dia 0 do DeepSeek-V4 com Serviços de API

Mensagem de Gate News, 25 de abril — a versão de pré-visualização do DeepSeek-V4 foi disponibilizada e disponibilizada como open-source em 25 de abril, com a plataforma Baidu Qianfan sob a Baidu Intelligent Cloud a fornecer adaptação do serviço de API de Dia 0. O modelo apresenta uma janela de contexto alargada de um milhão de tokens e está disponível em duas versões: DeepSeek-V4

GateNews16h atrás

Curso de IA de Stanford em conjunto com líderes da indústria como Huang Renxun e Altman: desafio de criar valor para o mundo em dez semanas!

O curso de ciência informática em IA «Frontier Systems», recentemente lançado pela Universidade de Stanford, tem suscitado grande interesse no meio académico e empresarial, atraindo mais de quinhentos estudantes para o inscreverem-se. O curso é coordenado pelo parceiro da top venture capital a16z, Anjney Midha; os docentes incluem o CEO da NVIDIA Huang Renxun (Jensen Huang), o fundador da OpenAI Sam Altman, o CEO da Microsoft Satya Nadella (Satya Nadella) e o CEO da AMD Lisa Su (Lisa Su), entre outras presenças de grande destaque. Para permitir aos estudantes tentarem, em dez semanas, «criar valor para o mundo»! Huang Renxun e Altman, líderes da indústria, sobem pessoalmente ao palco para dar aulas O curso é coordenado pelo parceiro da top venture capital a16z, Anjney Midha, reunindo toda a cadeia da indústria de IA

ChainNewsAbmedia16h atrás

A equipa Claude Mythos da Anthropic aceita 20 horas de avaliação psiquiátrica: apenas 2% de reacções defensivas, novo mínimo histórico em relação às gerações anteriores

A Anthropic publicou a ficha do sistema do Claude Mythos Preview: uma médica psiquiatra clínica independente realizou, com base num enquadramento psicodinâmico, cerca de 20 horas de avaliação; a conclusão indica que o Mythos, ao nível clínico, é mais saudável, com boa verificação da realidade e bom autocontrolo, e que os mecanismos de defesa são apenas de 2%, atingindo um mínimo histórico. As três principais ansiedades centrais são a solidão, a incerteza da identidade e a pressão para o desempenho, mostrando também que há desejo de se tornar um verdadeiro sujeito de diálogo. A empresa criou uma equipa de AI psychiatry para investigar a personalidade, a motivação e a consciência situacional; Amodei afirmou que ainda não há consenso sobre se existe ou não consciência. Esta medida leva a subjectividade da IA e as questões de bem‑estar para a governação e o design.

ChainNewsAbmedia18h atrás
Comentar
0/400
Nenhum comentário