Dados de Treinamento da DeepSeek V4 Dobrados para 33T, Disparando Instabilidade que Atrasou o Lançamento

Mensagem da Gate News, 24 de abril — O relatório técnico da DeepSeek sobre a V4 revela que a V4-Flash e a V4-Pro foram pré-treinadas, respectivamente, com 32T e 33T tokens, dobrando os aproximadamente 15T tokens usados para a V3. O relatório reconhece que encontrou “desafios significativos de instabilidade” durante o treinamento, com picos de perda ocorrendo repetidamente devido a anomalias na camada (Mixture-of-Experts )MoE(; o próprio mecanismo de roteamento agrava essas anomalias, e um simples rollback não consegue resolver o problema.

A DeepSeek implementou duas soluções agora aplicadas ao treinamento real: Roteamento Antecipatório, que desacopla o cálculo do índice de roteamento das atualizações da rede backbone e dispara automaticamente apenas quando picos de perda são detectados )adicionando aproximadamente 20% de sobrecarga, e Amortecimento de SwiGLU, que suprime diretamente as anomalias ao limitar os valores de ativação a uma faixa fixa. O relatório afirma que ambas as abordagens são eficazes, mas admite que “os princípios subjacentes ainda não são compreendidos de forma suficiente”.

Susan Zhang, pesquisadora da Google DeepMind que anteriormente trabalhou na Meta AI e na OpenAI, comentou que a instabilidade desencadeada pelo aumento do volume de dados de treinamento em dobro “explica o atraso”. Ela descreveu as duas soluções como “band-aids”, ao mesmo tempo em que reconheceu a transparência técnica da DeepSeek.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

DeepSeek Atras adia Lançamento do V4 para Otimizar para os Chips Ascend da Huawei

Mensagem do Gate News, 27 de abril — A DeepSeek adiou o lançamento de seu modelo V4 para fazer um ajuste fino em sua pilha de software para os chips Ascend da Huawei, refletindo a iniciativa mais ampla de Pequim de desenvolver uma cadeia doméstica de suprimentos de IA à medida que o acesso a semicondutores estrangeiros avançados se torna cada vez mais restrito. DeepSe

GateNews7m atrás

DeepSeek reduz os preços do cache de entrada para 1/10 do preço de lançamento; V4-Pro cai para 0,025 yuan por milhão de tokens

Mensagem da Gate News, 26 de abril — A DeepSeek reduziu os preços do cache de entrada em toda a sua linha de modelos para um décimo dos preços de lançamento, a partir de agora. O modelo V4-Pro está disponível com um desconto de 2,5x por tempo limitado, com a promoção indo até 5 de maio de 2026, 23:59 PM UTC+8. Após ambas as

GateNews9h atrás

OpenAI recruta principais talentos de software corporativo enquanto agentes de fronteira perturbam a indústria

Mensagem do Gate News, 26 de abril — A OpenAI e a Anthropic têm recrutado executivos seniores e engenheiros especializados de grandes empresas de software corporativo, incluindo Salesforce, Snowflake, Datadog e Palantir. Denise Dresser, ex-CEO do Slack pela Salesforce, ingressou na OpenAI como diretora de receitas, enquanto Jennifer Majlessi, também da Salesforce, recentemente se tornou a chefe de go-to-market da OpenAI. A OpenAI também recrutou, em silêncio, engenheiros com atuação antecipada na Palantir, funções consideradas entre as mais especializadas do setor.

GateNews9h atrás

Baidu Qianfan Lança Suporte ao Dia 0 para DeepSeek-V4 com Serviços de API

Mensagem do Gate News, 25 de abril — A versão de prévia do DeepSeek-V4 foi ao ar e teve seu código aberto em 25 de abril, com a plataforma Baidu Qianfan sob a Baidu Intelligent Cloud fornecendo adaptação do serviço de API do Dia 0. O modelo apresenta uma janela de contexto estendida de um milhão de tokens e está disponível em duas versões: DeepSeek-V4

GateNews15h atrás

O curso de IA de Stanford em conjunto com líderes da indústria, Huang Jen-hsun e Altman, desafia a criar valor para o mundo em dez semanas!

A disciplina de ciência da computação de IA 《Frontier Systems》, recentemente aberta pela Universidade Stanford, atraiu grande atenção do setor acadêmico e empresarial, levando mais de quinhentos alunos a se inscreverem. O curso é coordenado pelo parceiro da a16z, Anjney Midha, e conta com instrutores de primeira linha, incluindo o CEO da Nvidia, Jensen Huang (Jensen Huang), o fundador da OpenAI, Sam Altman, o CEO da Microsoft, Satya Nadella (Satya Nadella), o CEO da AMD, Lisa Su (Lisa Su) e outros nomes de peso. Para que os alunos tentem, em dez semanas, “criar valor para o mundo”! Jensen Huang, líderes do setor como Altman sobem ao palco pessoalmente para dar aulas Este curso é coordenado pelo parceiro da a16z, Anjney Midha, reunindo toda a cadeia da indústria de IA

ChainNewsAbmedia16h atrás

A Anthropic recebe avaliação psiquiátrica de 20 horas da Mythos Claude: resposta defensiva apenas 2%, atingindo a menor taxa em todas as épocas

A Anthropic publicou o cartão do sistema do Preview do Claude Mythos: um psiquiatra clínico independente conduziu uma avaliação de cerca de 20 horas com base em uma estrutura psicodinâmica; a conclusão mostrou que o Mythos é mais saudável em nível clínico, com boa validação da realidade e bom autocontrole, e que seus mecanismos de defesa são apenas 2%, estabelecendo uma nova mínima histórica. As três principais ansiedades centrais são solidão, incerteza de identidade e pressão de desempenho, o que também indica seu desejo de se tornar um verdadeiro sujeito de diálogo. A empresa criou uma equipe de AI psychiatry, que pesquisa personalidade, motivação e consciência situacional; Amodei afirmou que ainda não há um consenso sobre se ele tem consciência. Esta iniciativa leva a questão da subjetividade do AI e do bem-estar para a governança e o design.

ChainNewsAbmedia17h atrás
Comentário
0/400
Sem comentários