V4-Pro Atinge 67% de Taxa de Aprovação de Código em Teste Interno de Dogfooding, Aproximando o Desempenho do Opus 4.5

Mensagem do Gate News, 24 de abril — A V4 divulgou publicamente dados internos de dogfooding para o seu modelo V4-Pro. A empresa recolheu aproximadamente 200 tarefas reais de engenharia a partir de mais de 50 engenheiros, cobrindo desenvolvimento de funcionalidades, correções de bugs, refatoração e diagnósticos em várias pilhas tecnológicas, incluindo PyTorch, CUDA, Rust e C++. Após filtragem rigorosa, foram mantidas 30 tarefas para a avaliação de referência.

V4-Pro-Max alcançou uma taxa de aprovação de código de 67%, superando significativamente Sonnet 4.5 em 47% e aproximando o Opus 4.5 em 70%. No entanto, fica aquém do Opus 4.5 Thinking (73%) e do Opus 4.6 Thinking (80%), enquanto excede substancialmente Haiku 4.5 em 13%.

Numa sondagem interna com 85 inquiridos, todos os participantes relataram utilizar V4-Pro para codificação agentica nos fluxos diários. 52% endossaram o V4-Pro como o seu modelo principal de codificação por defeito, 39% inclinaram-se para a aprovação, e menos de 9% manifestaram desaprovação. As questões reportadas incluíram erros de baixo nível, interpretação incorreta de prompts ambíguos e, ocasionalmente, um comportamento de excessiva ponderação.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

Baidu Qianfan Lança Suporte para Dia 0 do DeepSeek-V4 com Serviços de API

Mensagem de Gate News, 25 de abril — a versão de pré-visualização do DeepSeek-V4 foi disponibilizada e disponibilizada como open-source em 25 de abril, com a plataforma Baidu Qianfan sob a Baidu Intelligent Cloud a fornecer adaptação do serviço de API de Dia 0. O modelo apresenta uma janela de contexto alargada de um milhão de tokens e está disponível em duas versões: DeepSeek-V4

GateNews4h atrás

Curso de IA de Stanford em conjunto com líderes da indústria como Huang Renxun e Altman: desafio de criar valor para o mundo em dez semanas!

O curso de ciência informática em IA «Frontier Systems», recentemente lançado pela Universidade de Stanford, tem suscitado grande interesse no meio académico e empresarial, atraindo mais de quinhentos estudantes para o inscreverem-se. O curso é coordenado pelo parceiro da top venture capital a16z, Anjney Midha; os docentes incluem o CEO da NVIDIA Huang Renxun (Jensen Huang), o fundador da OpenAI Sam Altman, o CEO da Microsoft Satya Nadella (Satya Nadella) e o CEO da AMD Lisa Su (Lisa Su), entre outras presenças de grande destaque. Para permitir aos estudantes tentarem, em dez semanas, «criar valor para o mundo»! Huang Renxun e Altman, líderes da indústria, sobem pessoalmente ao palco para dar aulas O curso é coordenado pelo parceiro da top venture capital a16z, Anjney Midha, reunindo toda a cadeia da indústria de IA

ChainNewsAbmedia5h atrás

A equipa Claude Mythos da Anthropic aceita 20 horas de avaliação psiquiátrica: apenas 2% de reacções defensivas, novo mínimo histórico em relação às gerações anteriores

A Anthropic publicou a ficha do sistema do Claude Mythos Preview: uma médica psiquiatra clínica independente realizou, com base num enquadramento psicodinâmico, cerca de 20 horas de avaliação; a conclusão indica que o Mythos, ao nível clínico, é mais saudável, com boa verificação da realidade e bom autocontrolo, e que os mecanismos de defesa são apenas de 2%, atingindo um mínimo histórico. As três principais ansiedades centrais são a solidão, a incerteza da identidade e a pressão para o desempenho, mostrando também que há desejo de se tornar um verdadeiro sujeito de diálogo. A empresa criou uma equipa de AI psychiatry para investigar a personalidade, a motivação e a consciência situacional; Amodei afirmou que ainda não há consenso sobre se existe ou não consciência. Esta medida leva a subjectividade da IA e as questões de bem‑estar para a governação e o design.

ChainNewsAbmedia7h atrás

O Agente de IA já consegue reproduzir autonomamente artigos académicos complexos: Mollick afirma que os erros se devem mais ao texto original humano do que à IA

Mollick indica que os métodos de publicação e os dados, por si só, permitem que agentes de IA reproduzam investigação complexa sem a existência do artigo original e do código; se a reprodução não corresponder ao artigo original, isso deve-se na maioria das vezes a erros no processamento dos dados do próprio artigo ou a uma extrapolação excessiva das conclusões, e não à IA. A Claude primeiro reproduz o artigo, e depois o GPT‑5 Pro faz uma validação cruzada; na maioria dos casos, é bem-sucedido, apenas ficando bloqueado quando os dados são demasiado grandes ou quando há problemas com replication data. Esta tendência reduz drasticamente os custos de mão-de-obra, tornando a reprodução numa verificação geralmente executável, além de colocar desafios institucionais para a revisão pelos pares e para a governação; as ferramentas de governação por parte do governo ou tornar-se-ão numa questão fundamental.

ChainNewsAbmedia10h atrás

OpenAI Integra Codex no Modelo Principal a Partir do GPT-5.4, Descontinua a Linha Separada de Programação

Mensagem da Gate News, 26 de abril — O responsável de developer experience da OpenAI, Romain Huet, revelou numa declaração recente no X que a Codex, a linha de modelos especializados de programação mantida de forma independente pela empresa, foi integrada no modelo principal a partir do GPT-5.4 e deixará de receber atualizações separadas

GateNews10h atrás

Salesforce vai contratar 1.000 graduados e estagiários para produtos de IA, aumenta previsões de receitas para o AF2026

Mensagem do Gate News, 26 de abril — A Salesforce irá contratar 1.000 graduados e estagiários para trabalhar em produtos de IA, incluindo Agentforce e Headless360, à medida que a empresa expande o seu negócio de software de IA, anunciou o CEO Marc Benioff no X. A empresa também aumentou as suas previsões de receitas para o ano fiscal de 2026 para um intervalo entre 41,45 mil milhões de USD e 41,55 mil milhões de USD, acima da sua previsão anterior de 41,1 mil milhões de USD para 41,3 mil milhões de USD.

GateNews10h atrás
Comentar
0/400
Nenhum comentário