Poderá a Vera Rubin NVL72 Redefinir a Arquitetura de Computação em IA? Da Blackwell ao Design Colaborativo de Seis Chips

Mercados
Atualizado: 06/02/2026 01:52

No dia 1 de junho de 2026, a NVIDIA anunciou, durante a conferência GTC Taipei, que a plataforma Vera Rubin tinha entrado em produção em larga escala. Nesse mesmo dia, o fornecedor de cloud de IA CoreWeave tornou-se o primeiro no sector a concluir a implementação e validação em cloud da Vera Rubin NVL72, com as suas ações a fecharem nos 124,82 $ — um aumento de 13,96 % — e o volume de transações cerca de 90 % acima da média dos últimos três meses. O anúncio simultâneo destes dois marcos não foi coincidência; assinala um novo salto geracional na oferta de capacidade computacional para IA, passando da experimentação laboratorial para ambientes de produção.

Reduzir a Vera Rubin NVL72 a uma mera atualização de chip seria subestimar gravemente a sua relevância para o sector. A verdadeira questão central que esta mudança geracional procura resolver é: à medida que os parâmetros dos modelos ultrapassam a marca dos biliões, as cargas de trabalho de inferência superam as de treino e a IA agente exige respostas ao nível dos milissegundos, como deve ser organizada, implementada, consumida e precificada a capacidade computacional? A Blackwell introduziu o conceito de computação ao nível de rack; a Vera Rubin leva este conceito ao extremo — com seis chips desenvolvidos em simultâneo, um rack compacto 100 % arrefecido a líquido e uma redução dos custos de inferência de uma ordem de grandeza — redefinindo os limites de eficiência da infraestrutura de IA.

Da Iteração de Chips à Integração de Sistemas: Como a Vera Rubin Redefine os Vetores de Competitividade

A narrativa tradicional sobre as atualizações geracionais de GPU segue uma cadeia linear: melhoria do processo → mais transístores → aumento da capacidade computacional → redução do consumo energético. A Vera Rubin NVL72 rompe com este padrão. Deixa de ter uma única GPU como elemento central e passa a definir um rack completo como a menor unidade de entrega para supercomputação de IA.

Cada rack Vera Rubin NVL72 integra 72 GPUs Rubin e 36 CPUs Vera, fornecendo 260 TB/s de largura de banda ao nível de rack através da sexta geração NVLink. A NVIDIA afirma que esta largura de banda supera o tráfego total da Internet a nível global. O sistema utiliza uma solução de arrefecimento 100 % líquida, reduzindo o tempo de instalação das tradicionais duas horas para apenas cinco minutos. A verdadeira mudança por detrás destas especificações é que o principal critério de competição computacional está a passar de "TFLOPS por placa" para "eficiência sistémica ao nível de rack".

A Blackwell NVL72 já tinha demonstrado o potencial da computação ao nível de rack — 1,44 EFLOPS de potência de inferência, 130 TB/s de largura de banda interna, arrefecimento parcialmente líquido. A Vera Rubin NVL72 faz avançar este conceito: a potência de inferência sobe para 3,6 EFLOPS (2,5x), a potência de treino salta de 10 PFLOPS para 35 PFLOPS (3,5x), a memória das GPUs evolui de HBM3e para HBM4, duplicando a capacidade de 141 GB para 288 GB, e a largura de banda aumenta de cerca de 8 TB/s para aproximadamente 22 TB/s. Estes números não representam apenas um "duplicar de desempenho", mas sim uma revisão sistémica da eficiência. Importa salientar que o aumento na potência de inferência (5x) supera largamente o do treino (3,5x). Este design diferenciado traduz um juízo claro do sector: a inferência está a substituir o treino como principal campo de consumo de capacidade computacional em IA.

Sinergia de Seis Chips e Arrefecimento Líquido Total: Lógica de Cadeia de Abastecimento e Custos por Detrás das Opções Técnicas

A inovação ao nível de chip na Vera Rubin NVL72 não se limita a uma atualização de GPU — envolve seis chips desenvolvidos de raiz: CPU Vera, GPU Rubin, switch NVLink 6, ConnectX-9 SuperNIC, BlueField-4 DPU e switch Ethernet Spectrum-6. Estes chips foram concebidos e validados em conjunto, e não integrados após desenvolvimento independente. Esta estratégia de "iterações simultâneas em toda a stack" visa eliminar as tradicionais quebras de desempenho entre computação, armazenamento e rede ao nível técnico, e criar barreiras de entrada mais profundas do que na era Blackwell — os potenciais concorrentes terão de dominar não só o design de GPUs, mas também acompanhar CPUs, interligações, NIC, DPUs e chips de switch.

O arrefecimento 100 % líquido é outra opção técnica de destaque. Cada rack Vera Rubin NVL72 consome cerca de 440 kW, opera com um PUE próximo de 1,1 e aceita água à entrada até 45 °C. Em comparação, a Blackwell NVL72 utiliza arrefecimento parcialmente líquido, com PUE em torno de 1,25. Embora esta diferença pareça marginal ao nível de um rack, ao escalar para milhares de racks, a descida do PUE de 1,25 para 1,1 traduz-se em poupanças substanciais em eletricidade e infraestrutura de arrefecimento. Daí que a CoreWeave tenha desenvolvido o Valvey (módulo programável de válvulas de arrefecimento líquido ao nível de rack) e o Racky (dispositivo de controlo unificado de rack) especificamente para a Vera Rubin — o arrefecimento líquido está a passar de "solução opcional" para "infraestrutura essencial".

Uma restrição importante na cadeia de abastecimento é que o arrefecimento líquido total e a sinergia de seis chips da Vera Rubin introduzem múltiplos estrangulamentos produtivos. A memória HBM4 é atualmente fornecida sobretudo pela Samsung Electronics e pela SK Hynix. A velocidade de aumento da produção de componentes de arrefecimento e a entrega sincronizada dos vários componentes do sistema poderão limitar a taxa de penetração da Vera Rubin no mercado.

Custos de Inferência Reduzidos a um Décimo: Redefinição da Economia das Aplicações de IA

Entre todas as especificações técnicas da Vera Rubin NVL72, as mais relevantes em termos económicos são: em comparação com a Blackwell, o custo de inferência por milhão de tokens desce para cerca de um décimo, o desempenho de inferência por watt aumenta até 10x e o número de GPUs necessárias para a mesma carga de inferência pode ser reduzido em até três quartos.

Estes resultados advêm de três avanços técnicos: processo de 3 nm que aumenta a densidade de transístores (33,6 mil milhões de transístores, cerca de 60 % mais do que a Blackwell), HBM4 a duplicar a largura de banda da memória e a sexta geração NVLink a reduzir ainda mais os estrangulamentos de comunicação entre GPUs. Mais importante ainda, a descida dos custos de inferência está a tornar viáveis cenários de aplicação que antes eram economicamente inviáveis.

Vejamos o exemplo de agentes autónomos em tempo real: quando a IA passa a ser um serviço em funcionamento contínuo e com decisões proativas, em vez de uma inferência pontual desencadeada pelo utilizador, o custo por milhão de tokens determina diretamente a viabilidade do modelo de negócio. O mesmo se aplica à inferência de contexto com milhões de tokens — análise de livros inteiros, transcrições extensas de reuniões ou compreensão de bases de código completas, em que cada pedido consome um volume massivo de tokens. Uma redução de custos de dez vezes transforma estes produtos de "demonstração" em soluções "escaláveis".

Segundo dados da TrendForce, em 2026, os cinco principais CSP norte-americanos deverão aumentar a capacidade de computação para inferência de IA em 122 %, enquanto a capacidade para treino crescerá apenas 56 %. A inferência está a crescer mais do dobro do treino. Esta alteração estrutural significa que a aposta da Vera Rubin na otimização para inferência tem uma forte relevância comercial, e não é apenas demonstração técnica.

Primeiros Sinais da Implementação em Cloud: Lançamento da CoreWeave e Efeitos na Cadeia Setorial

A CoreWeave anunciou a implementação bem-sucedida da Vera Rubin em cloud no próprio dia em que teve início a produção em massa — um timing que merece ser analisado. Isto aponta para vários factos em simultâneo: entrega antecipada da cadeia de fornecimento de hardware, prontidão da stack de software e operações, e um alinhamento estratégico excecionalmente profundo entre a CoreWeave e a NVIDIA.

Uma questão crítica de narrativa é que a afirmação da CoreWeave de ser a "primeira" é algo contestada. A Microsoft declarou, em março de 2026, ter sido o primeiro fornecedor de cloud em escala a validar a Vera Rubin NVL72 em cloud (para efeitos de validação). A diferença entre "primeiro a implementar" e "primeiro a validar" reflete a complexidade destas reivindicações de pioneirismo na competição por infraestrutura de IA. Os critérios para tais afirmações são abertos a interpretação entre as partes interessadas.

Do ponto de vista da cadeia setorial, a implementação da Vera Rubin pela CoreWeave baseia-se nos servidores PowerEdge XE9812 da Dell Technologies, arrefecidos a líquido, com arquitetura de rede compatível tanto com NVIDIA Quantum-X800 InfiniBand como com Spectrum-X Ethernet. Uma arquitetura RoCE multi-track e multi-plane assegura 1,6 Tb/s de largura de banda de backend por GPU. Isto significa que a prontidão do ecossistema Vera Rubin ultrapassa um único fornecedor, formando uma colaboração multinível desde OEM de servidores a equipamentos de rede.

A CoreWeave será oficialmente incluída no índice Russell 3000 a 27 de junho de 2026. Em 31 de março de 2026, a NVIDIA detinha cerca de 11 % do capital da CoreWeave. Segundo a FactSet, a previsão mediana de receitas de 31 analistas para a CoreWeave em 2026 é de 12 589 milhões $, com uma previsão mediana a longo prazo para 2029 de 50 458 milhões $. Estas perspetivas de crescimento de receitas estão fortemente correlacionadas com a oferta de capacidade computacional da Vera Rubin — o progresso na implementação da nova arquitetura terá impacto direto na expansão da capacidade e na concretização de receitas da CoreWeave.

Impacto Multissetorial: Da Redução dos Custos de Inferência à Reorganização da Capacidade Computacional

Colocando o lançamento da Vera Rubin NVL72 num contexto mais amplo, identificam-se três vias evolutivas interligadas a decorrer em simultâneo.

A primeira é a evolução da oferta e procura de capacidade computacional. A curva de crescimento está a passar de "centrada no treino" para "centrada na inferência". As exigências da IA agente — funcionamento contínuo, baixa latência e elevado throughput — estão a expandir a procura de computação de alguns clusters de treino ultra-escaláveis para redes de infraestrutura de inferência distribuída. O plano de centro de dados Vera Rubin da Supermicro (de 5 MW a 1 GW) responde a esta mudança — a oferta de computação deixa de ser monopólio dos mega centros de dados; fábricas de IA de média dimensão podem implementar capacidade de topo de forma económica.

A segunda é a reestruturação da competição no sector. A iteração simultânea de seis chips significa que a NVIDIA está a construir barreiras de entrada de forma sistémica. Para potenciais concorrentes, dominar o design de GPUs é apenas o primeiro passo; é necessário também resolver a otimização coordenada de CPUs, interligações, DPUs, NIC e chips de switch. A complexidade e profundidade desta stack tecnológica crescem exponencialmente, aumentando a pressão de convergência sobre os atuais players.

A terceira é a alteração das condições comerciais para aplicações de IA. A redução dos custos de inferência pode tornar viáveis cenários até agora inviáveis, sobretudo os que exigem cargas de trabalho de IA contínuas e de longa duração. Contudo, esta cadeia de transmissão não é automática — a adaptação da stack de software, a compatibilidade da arquitetura dos modelos com o novo hardware e as estratégias de preços dos serviços cloud irão determinar se os benefícios da redução dos custos de inferência serão integralmente absorvidos ao nível da aplicação.

Em análise de cenários, o cenário base (de maior probabilidade) é uma descida linear dos custos de inferência, impulsionando a otimização contínua das estruturas de custos das aplicações de IA, com melhoria sistémica entre 2027 e 2028. O cenário agressivo (probabilidade moderada) é o mercado antecipar a tendência descendente, mudando os critérios de aquisição de capacidade de "desempenho máximo" para "tokens por watt de throughput" e "custo por milhão de tokens", com os racks a substituírem os servidores como menor unidade de computação e os fornecedores de cloud que se adaptarem mais cedo ao nível sistémico a conquistarem uma clara vantagem competitiva. O cenário de risco (probabilidade mais baixa mas não negligenciável) são desafios na produção em massa ou na estabilidade da cadeia de abastecimento — fornecimento de HBM4, capacidade de componentes de arrefecimento e entrega sincronizada dos seis chips; atrasos em qualquer elo podem abrandar a penetração no mercado.

Conclusão

O lançamento da Vera Rubin NVL72 está a transferir a lógica da competição em computação para IA de "iteração de chips" para "integração de sistemas". Sinergia de seis chips, design de rack como computador e uma redução de custos de inferência de uma ordem de grandeza impulsionam esta nova vaga de revolução computacional. A Blackwell abriu a janela para a computação ao nível de rack; a Vera Rubin pretende levar essa janela ao limite — não apenas GPUs mais rápidas, mas uma redefinição de como a computação de IA é organizada, implementada e precificada.

Para os operadores de mercado, as variáveis-chave deixaram de ser "quão rápida será a próxima GPU" para "com que rapidez os benefícios da redução dos custos de inferência chegam ao nível da aplicação" e "em que medida as mudanças na organização da capacidade computacional irão reformular o design dos centros de dados e a concorrência entre fornecedores de cloud". A validação colaborativa em toda a indústria da Vera Rubin NVL72 está a dar respostas iniciais, mas a eficiência real após a implementação em larga escala, a estabilidade da cadeia de abastecimento e a absorção da procura a jusante exigem acompanhamento contínuo.

FAQ

Quais são as principais melhorias da Vera Rubin NVL72 face à Blackwell?

A Vera Rubin NVL72 oferece uma potência de inferência ao nível de rack de 3,6 EFLOPS — 2,5 vezes superior à Blackwell NVL72 (1,44 EFLOPS) — e reduz o custo de inferência por milhão de tokens para cerca de um décimo.

Porque é que o aumento da potência de treino da Vera Rubin (3,5x) é inferior ao aumento da potência de inferência (5x)?

Esta diferença reflete a visão estratégica da NVIDIA sobre as tendências do sector — as cargas de trabalho de inferência estão agora a crescer mais rapidamente do que as de treino, e a nova arquitetura foi otimizada de forma mais agressiva para cenários de inferência.

O que significa para a CoreWeave ser o primeiro fornecedor de cloud a implementar a Vera Rubin?

A colaboração de engenharia da CoreWeave com a NVIDIA vai muito além de uma relação tradicional de oferta e procura; a primeira implementação valida a prontidão da stack de software e das operações da Vera Rubin.

O que implica uma solução de arrefecimento 100 % líquida para os centros de dados?

O arrefecimento líquido total da Vera Rubin NVL72 reduz o PUE de cerca de 1,25 (Blackwell) para aproximadamente 1,1, resultando em poupanças significativas em eletricidade e infraestrutura de arrefecimento em implementações com milhares de racks.

Quais são os riscos de cadeia de abastecimento que a Vera Rubin enfrenta na produção em massa?

A memória HBM4 é fornecida sobretudo pela Samsung Electronics e pela SK Hynix; a velocidade de aumento da produção de componentes de arrefecimento e a entrega sincronizada dos seis chips podem limitar a penetração no mercado.

Que novos cenários de aplicação permitirá uma redução de custos de inferência para um décimo?

A operação contínua de agentes em tempo real, inferência de contexto longo com milhões de tokens e implementações de inferência distribuída em grande escala — antes inviáveis devido ao elevado custo de acumulação de tokens — tornam-se agora economicamente viáveis.

Que impacto terá a inclusão da CoreWeave no índice Russell 3000?

A inclusão no índice Russell 3000 impulsionará a alocação passiva de ETF, aumentando a acessibilidade e liquidez da CoreWeave junto de investidores institucionais.

A arquitetura da Vera Rubin alterou a lógica de investimento em infraestrutura de IA?

A lógica de investimento está a passar de "corrida ao desempenho por placa" para "competição pela eficiência sistémica", com a densidade computacional ao nível de rack, tokens por watt de throughput e custo por milhão de tokens a tornarem-se métricas centrais.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
Gostar do conteúdo