El 1 de junio de 2026, NVIDIA anunció en la conferencia GTC Taipei que la plataforma Vera Rubin había entrado en producción masiva a gran escala. Ese mismo día, el proveedor de nube de IA CoreWeave se convirtió en el primero del sector en completar el despliegue en la nube y la validación de Vera Rubin NVL72, con su acción cerrando a $124,82—un aumento del 13,96 %—y un volumen de negociación aproximadamente un 90 % superior a la media de tres meses. La publicación simultánea de estos dos anuncios no fue casualidad: marca un nuevo salto generacional en el suministro de computación de IA, pasando de experimentos de laboratorio a entornos de producción.
Considerar Vera Rubin NVL72 únicamente como una actualización de chips sería subestimar gravemente su importancia para la industria. El verdadero problema central que aborda este salto generacional es: A medida que los modelos superan el billón de parámetros, las cargas de inferencia superan a las de entrenamiento y la IA agentica exige respuestas en milisegundos, ¿cómo debe organizarse, desplegarse, consumirse y valorarse la potencia de cálculo? Blackwell introdujo el concepto de computación a nivel de rack; Vera Rubin lo lleva al extremo: seis chips iterados simultáneamente, un rack compacto refrigerado 100 % por líquido y una reducción de un orden de magnitud en los costes de inferencia, redefiniendo los límites de eficiencia de la infraestructura de IA.
De la iteración de chips a la integración de sistemas: cómo Vera Rubin redefine las dimensiones competitivas
La narrativa tradicional sobre las actualizaciones generacionales de GPU sigue una cadena lineal: mejora del proceso → más transistores → mayor potencia de cálculo → menor consumo energético. Vera Rubin NVL72 rompe este patrón. Ya no se centra en una sola GPU como principal argumento de venta, sino que define todo el rack como la unidad mínima de entrega para la supercomputación de IA.
Cada rack Vera Rubin NVL72 integra 72 GPUs Rubin y 36 CPUs Vera, ofreciendo 260 TB/s de ancho de banda a nivel de rack mediante NVLink de sexta generación. NVIDIA afirma que este ancho de banda supera el tráfico total de internet a nivel mundial. El sistema emplea una solución de refrigeración 100 % líquida, reduciendo el tiempo de instalación de dos horas en arquitecturas tradicionales a solo cinco minutos. El verdadero cambio detrás de estas especificaciones es que el principal indicador de competencia en computación pasa de "TFLOPS por tarjeta" a "eficiencia del sistema a nivel de rack".
Blackwell NVL72 ya demostró el potencial de la computación a nivel de rack: 1,44 EFLOPS de potencia de inferencia, 130 TB/s de ancho de banda interno, refrigeración parcial por líquido. Vera Rubin NVL72 lleva este concepto más allá: la potencia de inferencia salta a 3,6 EFLOPS (2,5 veces más), la potencia de entrenamiento pasa de 10 PFLOPS a 35 PFLOPS (3,5 veces más), la memoria GPU se actualiza de HBM3e a HBM4, duplicando la capacidad de 141 GB a 288 GB, y el ancho de banda aumenta de unos 8 TB/s a aproximadamente 22 TB/s. Estas cifras no representan simplemente una "duplicación de rendimiento", sino una revisión sistémica de la eficiencia. Destaca que el aumento en potencia de inferencia (5 veces) supera ampliamente al de entrenamiento (3,5 veces). Este diseño diferenciado refleja un juicio claro en la industria: la inferencia está reemplazando al entrenamiento como principal campo de batalla para el consumo de computación de IA.
Sinergia de seis chips y refrigeración líquida total: lógica de cadena de suministro y costes detrás de las decisiones técnicas
La innovación a nivel de chip en Vera Rubin NVL72 no se limita a una sola GPU: implica seis chips diseñados desde cero: CPU Vera, GPU Rubin, switch NVLink 6, SuperNIC ConnectX-9, DPU BlueField-4 y switch Ethernet Spectrum-6. Estos chips se desarrollaron y validaron de manera sincronizada, no ensamblados tras diseños independientes. Esta estrategia de "iteración simultánea de toda la pila" busca eliminar brechas de rendimiento históricas entre computación, almacenamiento y redes a nivel técnico, y construir barreras de entrada más profundas que en la era Blackwell a nivel comercial: los competidores potenciales deben dominar no solo el diseño de GPU, sino también avanzar en CPUs, interconexiones, NICs, DPUs y chips de switch.
La solución de refrigeración 100 % líquida es otra decisión técnica destacada. Cada rack Vera Rubin NVL72 consume unos 440 kW, opera con un PUE de aproximadamente 1,1 y acepta temperaturas de entrada de agua de hasta 45 °C. En comparación, Blackwell NVL72 utiliza refrigeración líquida parcial con un PUE cercano a 1,25. Aunque esta diferencia parece menor a nivel de rack, al escalar a miles de racks, la reducción de PUE de 1,25 a 1,1 genera ahorros significativos en electricidad e infraestructura de refrigeración. Por ello, CoreWeave desarrolló Valvey (módulo programable de válvula de refrigeración líquida a nivel de rack) y Racky (dispositivo de control unificado de rack) específicamente para Vera Rubin: la refrigeración líquida pasa de ser una "solución opcional" a "infraestructura esencial".
Una restricción clave de la cadena de suministro es que la refrigeración líquida total y la sinergia de seis chips en Vera Rubin introducen varios cuellos de botella en la producción. Actualmente, la memoria HBM4 es suministrada principalmente por Samsung Electronics y SK Hynix. La velocidad de escalado en la fabricación de componentes de refrigeración y la entrega sincronizada de los componentes del sistema podrían limitar la tasa de penetración de Vera Rubin en el mercado.
Los costes de inferencia caen a una décima parte: redefiniendo la economía de las aplicaciones de IA
Entre todas las especificaciones técnicas de Vera Rubin NVL72, las más relevantes económicamente son: en comparación con Blackwell, el coste de inferencia por millón de tokens cae a cerca de una décima parte, el rendimiento de inferencia por vatio aumenta hasta 10 veces y el número de GPUs necesarias para cargas equivalentes de inferencia puede reducirse hasta en tres cuartas partes.
Estas cifras derivan de tres avances técnicos: proceso de 3 nm que aumenta la densidad de transistores (33,6 mil millones de transistores, aproximadamente un 60 % más que Blackwell), HBM4 que duplica el ancho de banda de memoria y NVLink de sexta generación que reduce aún más los cuellos de botella en la comunicación entre GPUs. Más importante aún, la reducción de costes de inferencia está haciendo viables escenarios de aplicación que antes eran económicamente inviables.
Por ejemplo, agentes autónomos en tiempo real: cuando la IA se convierte en un servicio que funciona de forma continua y toma decisiones proactivas, en lugar de una inferencia puntual activada por el usuario, el coste por millón de tokens determina directamente la viabilidad del modelo de negocio. Lo mismo ocurre con la inferencia de contexto de un millón de tokens: analizar libros completos, transcripciones largas de reuniones o comprender bases de código completas, donde una sola petición consume una gran cantidad de tokens. Una reducción de costes de diez veces convierte estos productos de "grado demo" a "grado escalable".
Según TrendForce, en 2026 se espera que los cinco principales CSPs de Norteamérica aumenten la computación de inferencia de IA en un 122 %, mientras que la computación de entrenamiento solo crecerá un 56 %. La inferencia crece más del doble que el entrenamiento. Este cambio estructural significa que la optimización de rendimiento enfocada en inferencia de Vera Rubin tiene una relevancia comercial real, no solo una demostración técnica.
Señales tempranas del despliegue en la nube: lanzamiento de CoreWeave y efectos en la cadena industrial
CoreWeave anunció el despliegue exitoso de Vera Rubin en la nube el mismo día que comenzó la producción masiva—una sincronía digna de análisis. Apunta a varios hechos concurrentes: entrega anticipada desde la cadena de suministro de hardware, preparación de la pila de software y operaciones, y una alineación estratégica excepcionalmente profunda entre CoreWeave y NVIDIA.
Un aspecto crítico de la narrativa es que la afirmación de CoreWeave de ser "primero" es algo disputada. Microsoft declaró en marzo de 2026 que fue el primer proveedor de nube hiperescalar en validar Vera Rubin NVL72 en la nube (con fines de validación). La diferencia entre "primero en desplegar" y "primero en validar" refleja la complejidad de las reivindicaciones de "primero en mover" en la competencia de infraestructura de IA. Los criterios para tales afirmaciones son interpretables por las partes interesadas.
Desde la perspectiva de la cadena industrial, el despliegue de Vera Rubin por CoreWeave se basa en servidores PowerEdge XE9812 de Dell Technologies con refrigeración líquida, y una arquitectura de red que soporta tanto NVIDIA Quantum-X800 InfiniBand como Spectrum-X Ethernet. Una arquitectura RoCE multi-track y multi-plane proporciona 1,6 Tb/s de ancho de banda backend por GPU. Esto significa que la preparación del ecosistema de Vera Rubin va más allá de un solo proveedor, formando una colaboración multinivel desde OEMs de servidores hasta equipos de red.
CoreWeave será incluido oficialmente en el índice Russell 3000 el 27 de junio de 2026. Al 31 de marzo de 2026, NVIDIA posee alrededor del 11 % del capital de CoreWeave. Según FactSet, la previsión mediana de ingresos de 31 analistas para CoreWeave en 2026 es de $12 589 millones, con una previsión mediana a largo plazo para 2029 de $50 458 millones. Esta perspectiva de crecimiento de ingresos está altamente correlacionada con el suministro de computación de Vera Rubin: el progreso en el despliegue de la nueva arquitectura impactará directamente en la expansión de capacidad y la realización de ingresos de CoreWeave.
Impacto multisectorial: de costes de inferencia más bajos a una reorganización de la computación
Situar el lanzamiento de Vera Rubin NVL72 en un contexto industrial más amplio revela tres caminos evolutivos interconectados que se desarrollan simultáneamente.
El primero es la evolución de la oferta y demanda de computación. La curva de crecimiento está pasando de "impulsada por entrenamiento" a "impulsada por inferencia". La necesidad de operación continua, baja latencia y alto rendimiento de la IA agentica está expandiendo la demanda de computación desde unos pocos clústeres de entrenamiento ultra grandes a redes distribuidas de infraestructura de inferencia. El plan de centro de datos Vera Rubin de Supermicro (de 5 MW a 1 GW) responde a este cambio: el suministro de computación ya no necesita ser monopolizado por megacentros de datos; fábricas de IA de tamaño medio pueden desplegar computación de primer nivel de forma económica.
El segundo es la reestructuración de la competencia industrial. La iteración simultánea de seis chips significa que NVIDIA está construyendo barreras de entrada de manera sistemática. Para los competidores potenciales, dominar el diseño de GPU es solo el primer paso; también deben resolver la optimización coordinada de CPUs, interconexiones, DPUs, NICs y chips de switch. La complejidad y profundidad de esta pila tecnológica crecen exponencialmente, aumentando la presión de alcance para los actores existentes.
El tercero son las condiciones comerciales cambiantes para las aplicaciones de IA. Los menores costes de inferencia pueden hacer viables escenarios antes inviables, especialmente aquellos que requieren cargas de IA continuas a largo plazo. Sin embargo, esta cadena de transmisión no es automática: la adaptación de la pila de software, la compatibilidad de la arquitectura de modelos con el nuevo hardware y las estrategias de precios de servicios en la nube influirán en que los beneficios de la reducción de costes de inferencia se absorban plenamente en la capa de aplicación.
En el análisis de escenarios, el escenario base (de mayor probabilidad) es una reducción lineal de los costes de inferencia siguiendo una trayectoria predecible, impulsando la optimización continua de la estructura de costes de aplicaciones de IA, con mejoras sistémicas entre 2027 y 2028. El escenario agresivo (probabilidad moderada) es que el mercado anticipe la tendencia descendente, cambiando los estándares de adquisición de computación de "rendimiento máximo" a "tokens por vatio de rendimiento" y "coste por millón de tokens", con los racks reemplazando a los servidores como unidad mínima de computación y los proveedores de nube que adapten el sistema antes obteniendo una clara ventaja de primer movimiento. El escenario de riesgo (probabilidad menor pero no despreciable) son los desafíos en la producción masiva o la estabilidad de la cadena de suministro: suministro de HBM4, capacidad de componentes de refrigeración y entrega sincronizada de los seis chips; retrasos en cualquiera de estos puntos podrían ralentizar la penetración en el mercado.
Conclusión
El lanzamiento de Vera Rubin NVL72 está cambiando la lógica de la competencia en computación de IA de la "iteración de chips" a la "integración de sistemas". La sinergia de seis chips, el diseño de rack como ordenador y una reducción de un orden de magnitud en los costes de inferencia impulsan esta nueva ola de revolución en computación. Blackwell abrió la ventana para la computación a nivel de rack; Vera Rubin busca llevar esa ventana al extremo: no solo GPUs más rápidas, sino una redefinición de cómo se organiza, despliega y valora la computación de IA.
Para los actores del mercado, las variables clave ya no son "qué tan rápido es la próxima GPU", sino "cuán rápido llegarán los beneficios de costes de inferencia más bajos a la capa de aplicación" y "en qué medida los cambios en la organización de la computación remodelarán el diseño de centros de datos y la competencia entre proveedores de nube". La validación colaborativa de Vera Rubin NVL72 a nivel industrial está dando respuestas iniciales, pero la eficiencia real tras el despliegue a gran escala, la estabilidad de la cadena de suministro y la absorción de demanda aguas abajo requieren observación continua.
FAQ
¿Cuáles son las mejoras clave de Vera Rubin NVL72 frente a Blackwell?
Vera Rubin NVL72 ofrece una potencia de inferencia a nivel de rack de 3,6 EFLOPS—2,5 veces la de Blackwell NVL72 (1,44 EFLOPS)—y reduce el coste de inferencia por millón de tokens a cerca de una décima parte.
¿Por qué el aumento de potencia de entrenamiento de Vera Rubin (3,5 veces) es menor que el de inferencia (5 veces)?
Esta diferencia refleja la visión estratégica de NVIDIA sobre las tendencias del sector: las cargas de inferencia crecen ahora más rápido que las de entrenamiento y la nueva arquitectura está optimizada de forma más agresiva para escenarios de inferencia.
¿Qué significa que CoreWeave sea el primer proveedor de nube en desplegar Vera Rubin?
La colaboración técnica de CoreWeave con NVIDIA va mucho más allá de la relación tradicional de oferta y demanda; su primer despliegue valida la preparación de la pila de software y operaciones de Vera Rubin.
¿Qué implica una solución de refrigeración 100 % líquida para los centros de datos?
La refrigeración líquida total de Vera Rubin NVL72 reduce el PUE de aproximadamente 1,25 (Blackwell) a cerca de 1,1, generando ahorros significativos en electricidad e infraestructura de refrigeración a escala de miles de racks.
¿Qué riesgos de cadena de suministro enfrenta Vera Rubin en la producción masiva?
La memoria HBM4 es suministrada principalmente por Samsung Electronics y SK Hynix; la velocidad de escalado de componentes de refrigeración y la entrega sincronizada de los seis chips podrían limitar la penetración en el mercado.
¿Qué nuevos escenarios de aplicación habilitará una reducción de costes de inferencia de diez veces?
Operación continua de agentes en tiempo real, inferencia de contexto largo de un millón de tokens y despliegues de inferencia distribuida a gran escala—antes inviables por el alto coste de acumulación de tokens—serán económicamente factibles.
¿Qué impacto tendrá la inclusión de CoreWeave en el índice Russell 3000?
La inclusión en el Russell 3000 impulsará la asignación pasiva de ETFs, aumentando la accesibilidad y liquidez de CoreWeave entre inversores institucionales.
¿Ha cambiado la arquitectura de Vera Rubin la lógica de inversión en infraestructura de IA?
La lógica de inversión está pasando de "carreras por el rendimiento de una sola tarjeta" a "competencia por eficiencia a nivel de sistema", con la densidad de computación a nivel de rack, tokens por vatio de rendimiento y coste por millón de tokens como métricas centrales.




