A DeepSeek, uma empresa de inteligência artificial sediada em Hangzhou, adicionou capacidades de reconhecimento de imagens e de vídeo ao seu chatbot principal através de uma nova funcionalidade “modo de reconhecimento de imagem”, colocando-se ao nível de outros grandes chatbots de IA. O lançamento coincidiu com um marco significativo na cadeia de abastecimento de chips da China, já que quatro empresas nacionais de semicondutores — Huawei Ascend, Cambricon, Hygon Information e Moore Threads — confirmaram, no mesmo dia, o suporte para o modelo topo de gama mais recente da DeepSeek, o DeepSeek-V4, assinalando uma mudança em relação aos períodos de adaptação anteriores, típicos durante meses fora do ecossistema da Nvidia.
A DeepSeek lançou discretamente o modo de reconhecimento de imagem juntamente com dois outros modos lançados mais cedo no mês: “expert” e “flash”. De acordo com Chen Xiaokang, que lidera a equipa multimodal da DeepSeek, a ferramenta foi primeiro testada com um pequeno grupo de utilizadores tanto no website como na aplicação móvel. Chen Deli, um investigador sénior da empresa, celebrou o lançamento com uma publicação que fazia referência ao logótipo da empresa: “A pequena baleia consegue agora ver.”
A funcionalidade de imagem e vídeo chegou apenas dias depois de a DeepSeek ter disponibilizado uma pré-visualização do DeepSeek-V4 e disponibilizado os pesos do modelo para download e utilização públicos. O V4 está estruturado como dois modelos distintos: DeepSeek-V4-Pro, com 1,6 biliões de parâmetros, concebido para raciocínio complexo e fluxos de trabalho automatizados multi-etapa, e DeepSeek-V4-Flash, otimizado para lidar com grandes volumes de pedidos a um custo mais baixo. Ambos os modelos suportam uma janela de contexto de um milhão de tokens e utilizam um desenho de atenção híbrida que a empresa afirma reduzir os requisitos de capacidade de computação e memória durante a inferência.
O que captou a atenção da indústria não foi apenas o próprio modelo, mas o suporte coordenado de hardware demonstrado no dia do lançamento do V4. A Huawei Ascend confirmou compatibilidade com os seus chips A2, A3 e 950, com o Ascend 950 a utilizar processos de computação fundida e fluxos de processamento em paralelo para acelerar a inferência tanto para o V4-Pro como para o V4-Flash. A Cambricon concluiu a sua adaptação usando o framework de inferência open-source vLLM e publicou o seu código no GitHub. A Hygon Information realizou otimização profunda do modelo na sua plataforma DCU para permitir uma transição suave do lançamento do modelo para a implementação. A Moore Threads fez parceria com a Beijing Academy of Artificial Intelligence para executar o V4 no seu cartão MTT S5000, utilizando a stack de software FlagOS.
Este suporte no mesmo dia, abrangendo vários conjuntos de chips, representa uma rutura com padrões históricos. Antes, o hardware fora do ecossistema da Nvidia normalmente exigia meses para suportar os principais novos modelos. Observadores da indústria referem que conseguir compatibilidade em quatro conjuntos de chips domésticos diferentes no dia do lançamento sinaliza uma mudança real na maturidade da infraestrutura de semicondutores e de IA da China.
O significado mais amplo do lançamento da DeepSeek vai além das realizações técnicas individuais. Ao permitir que o V4 seja executado nativamente em vários chips chineses em simultâneo, a DeepSeek reduz o risco de dependência de restrições de exportação que historicamente bloquearam as empresas chinesas de aceder aos processadores americanos mais avançados. A eficiência de custos continua a ser central na estratégia da DeepSeek — a empresa deu prioridade a manter baixos os custos de operação do modelo, permitindo que as empresas construam sistemas automatizados sem despesas de computação proibitivas.
Observadores da indústria caracterizam este lançamento como reflexo de toda uma cadeia de abastecimento a amadurecer, e não de um único avanço tecnológico. A coordenação entre a DeepSeek, os fabricantes de chips e as estruturas de software demonstra um desenvolvimento integrado do ecossistema. Esta trajetória sugere que o panorama competitivo na IA está a mudar: o foco deixa de ser a sofisticação individual do modelo para passar a ser a capacidade de manter sistemas completos, económicos e independentes a longo prazo.
Que novas capacidades é que a DeepSeek adicionou ao seu chatbot? A DeepSeek adicionou um “modo de reconhecimento de imagem” que permite ao seu chatbot compreender fotos e vídeos, não apenas texto. Esta funcionalidade foi testada pela primeira vez com um pequeno grupo de utilizadores tanto no website como na aplicação móvel, colocando as capacidades da DeepSeek ao nível de outros grandes chatbots de IA que oferecem capacidades semelhantes.
Quais empresas chinesas de chips suportaram a DeepSeek-V4 no dia do lançamento? Quatro empresas chinesas de chips confirmaram suporte no mesmo dia para a DeepSeek-V4: Huawei Ascend (com chips A2, A3 e 950), Cambricon, Hygon Information e Moore Threads. Esta compatibilidade no mesmo dia entre vários conjuntos de chips era anteriormente rara fora do ecossistema da Nvidia, normalmente exigindo meses de trabalho de adaptação.
Quais são as duas versões da DeepSeek-V4 e como é que diferem? A DeepSeek-V4-Pro tem 1,6 biliões de parâmetros e foi concebida para raciocínio complexo e fluxos de trabalho automatizados multi-etapa, enquanto a DeepSeek-V4-Flash é otimizada para lidar com grandes volumes de pedidos a um custo mais baixo. Ambas suportam uma janela de contexto de um milhão de tokens e utilizam um desenho de atenção híbrida para reduzir os requisitos de capacidade de computação e de memória.