Mensagem do Gate News, 22 de abril — O estudante de doutoramento da Princeton, Yifan Zhang, divulgou no X especificações técnicas completas para o DeepSeek V4, na sequência de uma antevisão a 19 de abril. O V4 conta com 1,6 biliões de parâmetros no total e uma variante leve, V4-Lite, com 285 mil milhões de parâmetros.

O modelo utiliza o mecanismo de atenção DSA2, que combina a anterior DSA (DeepSeek Sparse Attention) da DeepSeek da V3.2 e a NSA (Native Sparse Attention) com embeddings de cabeça de 512 dimensões, em conjunto com a Sparse Multi-Query Attention (MQA) e a Sliding Window Attention (SWA). A camada MoE (Mixture of Experts) contém 384 especialistas, com 6 ativados por passagem forward, utilizando o Fused MoE Mega-Kernel. As ligações residuais recorrem à arquitectura Hyper-Connections.

Os detalhes de treino revelados pela primeira vez incluem o uso do optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), uma janela de contexto de pré-treino de 32K tokens e o GRPO (Group Relative Policy Optimization) com correcção de divergência KL durante a aprendizagem por reforço. A janela de contexto final estende-se até 1 milhão de tokens. O modelo é apenas de texto.

Zhang não é empregado pela DeepSeek, e a empresa não comentou oficialmente as informações divulgadas.

Ver fonte

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

A equipa Claude Mythos da Anthropic aceita 20 horas de avaliação psiquiátrica: apenas 2% de reacções defensivas, novo mínimo histórico em relação às gerações anteriores

Notícias da indústria de IA

A Anthropic publicou a ficha do sistema do Claude Mythos Preview: uma médica psiquiatra clínica independente realizou, com base num enquadramento psicodinâmico, cerca de 20 horas de avaliação; a conclusão indica que o Mythos, ao nível clínico, é mais saudável, com boa verificação da realidade e bom autocontrolo, e que os mecanismos de defesa são apenas de 2%, atingindo um mínimo histórico. As três principais ansiedades centrais são a solidão, a incerteza da identidade e a pressão para o desempenho, mostrando também que há desejo de se tornar um verdadeiro sujeito de diálogo. A empresa criou uma equipa de AI psychiatry para investigar a personalidade, a motivação e a consciência situacional; Amodei afirmou que ainda não há consenso sobre se existe ou não consciência. Esta medida leva a subjectividade da IA e as questões de bem‑estar para a governação e o design.

ChainNewsAbmedia47m atrás

O Agente de IA já consegue reproduzir autonomamente artigos académicos complexos: Mollick afirma que os erros se devem mais ao texto original humano do que à IA

Agente de IA Notícias da indústria de IA

Mollick indica que os métodos de publicação e os dados, por si só, permitem que agentes de IA reproduzam investigação complexa sem a existência do artigo original e do código; se a reprodução não corresponder ao artigo original, isso deve-se na maioria das vezes a erros no processamento dos dados do próprio artigo ou a uma extrapolação excessiva das conclusões, e não à IA. A Claude primeiro reproduz o artigo, e depois o GPT‑5 Pro faz uma validação cruzada; na maioria dos casos, é bem-sucedido, apenas ficando bloqueado quando os dados são demasiado grandes ou quando há problemas com replication data. Esta tendência reduz drasticamente os custos de mão-de-obra, tornando a reprodução numa verificação geralmente executável, além de colocar desafios institucionais para a revisão pelos pares e para a governação; as ferramentas de governação por parte do governo ou tornar-se-ão numa questão fundamental.

ChainNewsAbmedia3h atrás

OpenAI Integra Codex no Modelo Principal a Partir do GPT-5.4, Descontinua a Linha Separada de Programação

Notícias da indústria de IA

Mensagem da Gate News, 26 de abril — O responsável de developer experience da OpenAI, Romain Huet, revelou numa declaração recente no X que a Codex, a linha de modelos especializados de programação mantida de forma independente pela empresa, foi integrada no modelo principal a partir do GPT-5.4 e deixará de receber atualizações separadas

GateNews3h atrás

Salesforce vai contratar 1.000 graduados e estagiários para produtos de IA, aumenta previsões de receitas para o AF2026

Notícias da indústria de IA

Mensagem do Gate News, 26 de abril — A Salesforce irá contratar 1.000 graduados e estagiários para trabalhar em produtos de IA, incluindo Agentforce e Headless360, à medida que a empresa expande o seu negócio de software de IA, anunciou o CEO Marc Benioff no X. A empresa também aumentou as suas previsões de receitas para o ano fiscal de 2026 para um intervalo entre 41,45 mil milhões de USD e 41,55 mil milhões de USD, acima da sua previsão anterior de 41,1 mil milhões de USD para 41,3 mil milhões de USD.

GateNews3h atrás

Alibaba Cloud Lança Qwen-Image-2.0-Pro com Geração de Texto-para-Imagem e Edição Unificadas, Suportando Renderização de Texto Multilingue

Notícias da indústria de IA

Mensagem de Gate News, 26 de abril — A plataforma Alibaba Cloud Bailian lançou o Qwen-Image-2.0-Pro, uma versão completa da série Qwen-Image-2.0 que combina a geração de texto para imagem e a edição de imagens num único modelo. Os utilizadores podem modificar objetos, texto e estilos diretamente através de comandos em linguagem natural

GateNews5h atrás

A API DeepSeek V4-Pro recebe um desconto de 75% até 5 de Maio; o preço de saída cai para $0.87 por milhão de tokens

Notícias da indústria de IA

Mensagem de Notícias da Gate, 26 de Abril — A DeepSeek anunciou um desconto de 75% por tempo limitado nos preços da API V4-Pro, válido até 5 de Maio às 15:59 UTC. Após o desconto, o preço por milhão de tokens é: cache de entrada (hit) $0.03625

GateNews6h atrás

Comentar

0/400

Nenhum comentário