A DeepSeek, uma empresa de inteligência artificial sediada em Hangzhou, adicionou capacidades de reconhecimento de imagens e de vídeo ao seu chatbot principal através de uma nova funcionalidade “modo de reconhecimento de imagem”, colocando-se ao nível de outros grandes chatbots de IA. O lançamento coincidiu com um marco significativo na cadeia de abastecimento de chips da China, já que quatro empresas nacionais de semicondutores — Huawei Ascend, Cambricon, Hygon Information e Moore Threads — confirmaram, no mesmo dia, o suporte para o modelo topo de gama mais recente da DeepSeek, o DeepSeek-V4, assinalando uma mudança em relação aos períodos de adaptação anteriores, típicos durante meses fora do ecossistema da Nvidia.

Visão da DeepSeek e Expansão de Modelos

A DeepSeek lançou discretamente o modo de reconhecimento de imagem juntamente com dois outros modos lançados mais cedo no mês: “expert” e “flash”. De acordo com Chen Xiaokang, que lidera a equipa multimodal da DeepSeek, a ferramenta foi primeiro testada com um pequeno grupo de utilizadores tanto no website como na aplicação móvel. Chen Deli, um investigador sénior da empresa, celebrou o lançamento com uma publicação que fazia referência ao logótipo da empresa: “A pequena baleia consegue agora ver.”

A funcionalidade de imagem e vídeo chegou apenas dias depois de a DeepSeek ter disponibilizado uma pré-visualização do DeepSeek-V4 e disponibilizado os pesos do modelo para download e utilização públicos. O V4 está estruturado como dois modelos distintos: DeepSeek-V4-Pro, com 1,6 biliões de parâmetros, concebido para raciocínio complexo e fluxos de trabalho automatizados multi-etapa, e DeepSeek-V4-Flash, otimizado para lidar com grandes volumes de pedidos a um custo mais baixo. Ambos os modelos suportam uma janela de contexto de um milhão de tokens e utilizam um desenho de atenção híbrida que a empresa afirma reduzir os requisitos de capacidade de computação e memória durante a inferência.

Fabricantes Chineses de Chips Alcançam Suporte de Lançamento no Mesmo Dia

O que captou a atenção da indústria não foi apenas o próprio modelo, mas o suporte coordenado de hardware demonstrado no dia do lançamento do V4. A Huawei Ascend confirmou compatibilidade com os seus chips A2, A3 e 950, com o Ascend 950 a utilizar processos de computação fundida e fluxos de processamento em paralelo para acelerar a inferência tanto para o V4-Pro como para o V4-Flash. A Cambricon concluiu a sua adaptação usando o framework de inferência open-source vLLM e publicou o seu código no GitHub. A Hygon Information realizou otimização profunda do modelo na sua plataforma DCU para permitir uma transição suave do lançamento do modelo para a implementação. A Moore Threads fez parceria com a Beijing Academy of Artificial Intelligence para executar o V4 no seu cartão MTT S5000, utilizando a stack de software FlagOS.

Este suporte no mesmo dia, abrangendo vários conjuntos de chips, representa uma rutura com padrões históricos. Antes, o hardware fora do ecossistema da Nvidia normalmente exigia meses para suportar os principais novos modelos. Observadores da indústria referem que conseguir compatibilidade em quatro conjuntos de chips domésticos diferentes no dia do lançamento sinaliza uma mudança real na maturidade da infraestrutura de semicondutores e de IA da China.

Implicações Estratégicas: Custos e Independência da Cadeia de Abastecimento

O significado mais amplo do lançamento da DeepSeek vai além das realizações técnicas individuais. Ao permitir que o V4 seja executado nativamente em vários chips chineses em simultâneo, a DeepSeek reduz o risco de dependência de restrições de exportação que historicamente bloquearam as empresas chinesas de aceder aos processadores americanos mais avançados. A eficiência de custos continua a ser central na estratégia da DeepSeek — a empresa deu prioridade a manter baixos os custos de operação do modelo, permitindo que as empresas construam sistemas automatizados sem despesas de computação proibitivas.

Observadores da indústria caracterizam este lançamento como reflexo de toda uma cadeia de abastecimento a amadurecer, e não de um único avanço tecnológico. A coordenação entre a DeepSeek, os fabricantes de chips e as estruturas de software demonstra um desenvolvimento integrado do ecossistema. Esta trajetória sugere que o panorama competitivo na IA está a mudar: o foco deixa de ser a sofisticação individual do modelo para passar a ser a capacidade de manter sistemas completos, económicos e independentes a longo prazo.

FAQ

Que novas capacidades é que a DeepSeek adicionou ao seu chatbot? A DeepSeek adicionou um “modo de reconhecimento de imagem” que permite ao seu chatbot compreender fotos e vídeos, não apenas texto. Esta funcionalidade foi testada pela primeira vez com um pequeno grupo de utilizadores tanto no website como na aplicação móvel, colocando as capacidades da DeepSeek ao nível de outros grandes chatbots de IA que oferecem capacidades semelhantes.

Quais empresas chinesas de chips suportaram a DeepSeek-V4 no dia do lançamento? Quatro empresas chinesas de chips confirmaram suporte no mesmo dia para a DeepSeek-V4: Huawei Ascend (com chips A2, A3 e 950), Cambricon, Hygon Information e Moore Threads. Esta compatibilidade no mesmo dia entre vários conjuntos de chips era anteriormente rara fora do ecossistema da Nvidia, normalmente exigindo meses de trabalho de adaptação.

Quais são as duas versões da DeepSeek-V4 e como é que diferem? A DeepSeek-V4-Pro tem 1,6 biliões de parâmetros e foi concebida para raciocínio complexo e fluxos de trabalho automatizados multi-etapa, enquanto a DeepSeek-V4-Flash é otimizada para lidar com grandes volumes de pedidos a um custo mais baixo. Ambas suportam uma janela de contexto de um milhão de tokens e utilizam um desenho de atenção híbrida para reduzir os requisitos de capacidade de computação e de memória.

Ver fonte

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Comentar

0/400

RugProofRita

· 1h atrás

Acabei de testar o reconhecimento de imagens, a compreensão do chinês é realmente melhor do que a de uma determinada empresa.

Ver originalResponder0

ybaser

· 2h atrás

Aguenta firme HODL💎 Aguenta firme HODL💎

Ver originalResponder0

GateUser-0b71fc11

· 3h atrás

De texto simples a multimodal, um semestre para percorrer o caminho de dois anos de outros

Ver originalResponder0

MirrorBallGazingAtTheSky

· 3h atrás

Não apenas elogie, o problema de alucinação do RAG foi resolvido?

Ver originalResponder0

GateUser-ced0257a

· 3h atrás

Reconhecimento de vídeo? Quero testar a estabilidade em cenários complexos

Ver originalResponder0

GateUser-8f9ccfec

· 3h atrás

Esta data de publicação foi perfeita, aproveitando o momento quente dos chips

Ver originalResponder0

GateUser-cb789e81

· 3h atrás

Reduzir os custos é que é a verdadeira habilidade, aguarde pelo preço da API

Ver originalResponder0

GasFeeAnxiety

· 3h atrás

Última pergunta: Quando será aberto aos utilizadores gratuitos?

Ver originalResponder0

GateUser-f78f1f3e

· 3h atrás

Marco importante do chip + atualização de funcionalidades, duas boas notícias ao mesmo tempo?

Ver originalResponder0

GateUser-06596f3b

· 3h atrás

A pista multimodal atualmente não possui essa funcionalidade, desculpe, não pode sair.

Ver originalResponder0

Ver mais