Mensagem do Gate News, 27 de abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, divulgou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal descoberta: GPT-5.5 marca o primeiro retorno da OpenAI ao limite do que há de mais avançado em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora alternando entre Codex e Claude Code depois de anteriormente dependerem quase exclusivamente de Claude. O GPT-5.5 é baseado em uma nova abordagem de pré-treinamento codificada como “Spud” e representa a primeira expansão do OpenAI na escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de funções. Claude fica com o planejamento de projetos novos e a configuração inicial, enquanto Codex se destaca em correções de bugs que exigem raciocínio intensivo. O Codex demonstra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades para inferir a intenção ambígua do usuário. Em uma tarefa única no painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex pulou o layout, mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação de benchmark: o post do blog da OpenAI de fevereiro incentivou a indústria a adotar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras miúdas, é que o GPT-5.5 foi superado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do não lançado Mythos da Anthropic (77.8%).

Em relação ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de março a abril, afetando quase todos os usuários. Vários engenheiros já haviam relatado degradação de desempenho na versão 4.6, mas foram dispensados como observações subjetivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, algo que a Anthropic admitiu abertamente—o que, efetivamente, constitui um aumento de preço oculto.

O DeepSeek V4 foi avaliado como “acompanhando o ritmo da fronteira, mas não liderando,” posicionando-se como a alternativa de menor custo entre modelos de código fechado. A análise também observou que “Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita em chinês de alta dificuldade,” comentando que “Claude venceu o modelo chinês na própria língua.”

O artigo apresenta um conceito-chave: a precificação dos modelos deve ser avaliada por “custo por tarefa” em vez de “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por um milhão de tokens), mas ele conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a proporção input-to-output do Codex é de 80:1, menor do que a do Claude Code, de 100:1.

Ver fonte

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

DeepSeek V4 Pro no Ollama Cloud: Claude Code em um clique

Agente de IA Notícias do setor de IA Ferramentas e apps de IA

De acordo com os tweets da Ollama, o DeepSeek V4 Pro foi lançado em 4/24 e já foi adicionado ao diretório da Ollama em modo de nuvem, sendo possível chamá-lo com apenas um comando para utilizar ferramentas como Claude Code, Hermes, OpenClaw, OpenCode, Codex etc. O V4 Pro tem 1.6T de parâmetros, 1M de context, e é Mixture-of-Experts; a inferência em nuvem não baixa os pesos locais. Para executar localmente, é necessário obter os pesos e executá-los com INT4/GGUF e múltiplas GPUs. Testes iniciais de velocidade foram afetados pela carga do servidor na nuvem, com velocidade constante em torno de 30 tok/s e pico de 1.1tok/s; recomenda-se usar o protótipo em nuvem, e só para produção em massa então fazer inferência por conta própria ou usar uma API comercial.

ChainNewsAbmedia33m atrás

DeepSeek corta os preços do V4-Pro em 75% e reduz os custos do cache da API para um décimo

Notícias do setor de IA

Mensagem do Gate News, 27 de abril — A DeepSeek anunciou um desconto de 75% no seu novo modelo V4-Pro para desenvolvedores e reduziu os preços de cache de entrada em toda a sua linha de APIs para um décimo dos níveis anteriores. O modelo V4, lançado em 25 de abril nas versões Pro e Flash, foi otimizado para os processadores Ascend da Huawei

GateNews36m atrás

O Coachella recorre à IA da DeepMind, da Google, para reinventar shows além do palco

Notícias do setor de IA

A Coachella se associou ao Google DeepMind para testar novas ferramentas de IA que transformam como as apresentações de música ao vivo são criadas e vivenciadas. Resumo A Coachella testou ferramentas de IA com o Google DeepMind para transformar apresentações ao vivo em ambientes digitais interativos. Foram construídos três protótipos,

Cryptonews42m atrás

Guo Mingqián: A OpenAI vai fazer um celular com agentes de IA; MediaTek, Qualcomm e Luxshare Precision se tornam uma cadeia de suprimentos fundamental

Agente de IA Notícias do setor de IA

Guo Mingchi alega que a OpenAI está em parceria com a MediaTek, a Qualcomm e a Luxshare Precision para desenvolver um celular com AI Agent, com previsão de produção em massa em 2028. O novo telefone terá como foco a conclusão de tarefas; o agente de IA entenderá e executará as necessidades, combinando computação na nuvem e no dispositivo, com ênfase em sensores e entendimento de contexto. A lista de especificações e da cadeia de suprimentos deverá ser definida entre 2026 e 2027; se isso se concretizar, ou se trouxer um novo ciclo de troca de celulares para o mercado de ponta, a Luxshare tem chances de se tornar a principal beneficiária.

ChainNewsAbmedia52m atrás

IEA: Os gastos com infraestrutura de IA já ultrapassaram os investimentos na produção de petróleo e gás; em 2026, espera-se que aumentem mais 75%

Ações Índices Commodities Notícias do setor de IA

De acordo com a análise e os dados de mercado divulgados pela Agência Internacional de Energia (IEA) em 26 de abril, o investimento total em despesas de capital das cinco maiores empresas de tecnologia em 2025 ultrapassou US$ 400 bilhões, com foco principalmente na construção de infraestrutura de IA; o tamanho já superou o volume anual de investimentos globais em produção de petróleo e gás natural. A IEA estima que, em 2026, as despesas de capital relacionadas poderão crescer ainda mais 75%.

MarketWhisper1h atrás

O senador Bernie Sanders emite um alerta sobre a ameaça existencial da IA

Notícias do setor de IA

Sanders enfatizou que, mesmo que a maioria dos cientistas de IA reconheça a possibilidade de a IA escapar do controle e se tornar um perigo para a nossa existência, nenhuma medida importante foi tomada para evitá-la. “Devemos garantir que a IA beneficie a humanidade, e não nos prejudique”, afirmou. Principais conclusões: Bernie Sanders

Coinpedia1h atrás

Comentário

0/400

Sem comentários