Agentes autónomos hardware

NVIDIA Vera Rubin: La CPU definitiva para Agentes de IA en 2026

Arquitectura de la Era Agéntica: Un Análisis Exhaustivo de la Plataforma NVIDIA Vera Rubin y la Transformación de la Infraestructura de Cómputo Heterogéneo

La transición de la inteligencia artificial generativa tradicional hacia una era dominada por el razonamiento agéntico representa el cambio de paradigma más profundo en la computación de alto rendimiento desde la introducción del modelo GPGPU moderno. Mientras que las generaciones anteriores de infraestructura se centraban predominantemente en la aceleración de modelos de lenguaje de gran tamaño (LLM) para tareas de respuesta única, el surgimiento de los agentes autónomos exige un rediseño total del sistema. Los sistemas agénticos se definen por su capacidad para razonar de manera autónoma, planificar tareas de múltiples pasos, interactuar con herramientas externas y mantener estados de memoria persistentes a lo largo de contextos masivos. Esta evolución ha expuesto limitaciones críticas en las arquitecturas centradas exclusivamente en la GPU, donde la coordinación del sistema y el flujo de datos se convierten en los nuevos cuellos de botella del rendimiento. La plataforma NVIDIA Vera Rubin, lanzada para suceder a la arquitectura Blackwell, aborda estos desafíos mediante una estrategia de co-diseño extremo, integrando siete componentes especializados que transforman el rack de datos en la unidad fundamental de cómputo.

El Imperativo del Razonamiento Agéntico: Por qué la GPU no es Suficiente

El análisis de la infraestructura de IA contemporánea revela un cambio estructural en la distribución de la carga de trabajo. En los sistemas de chat tradicionales, la GPU realizaba casi todo el trabajo de cómputo mientras la CPU cumplía una función secundaria de carga de datos. Sin embargo, la inteligencia agéntica requiere procesos de orquestación complejos que ocurren entre las llamadas de inferencia: planificación de subtareas, ejecución de código en sandboxes, validación de resultados y actualización de la memoria de contexto. Se estima que esta orquestación consume ahora entre el 50% y el 90% de la latencia total del sistema en flujos de trabajo agénticos. Si la CPU no puede procesar estas tareas de control con la suficiente rapidez, la utilización de la GPU cae drásticamente, lo que resulta en una ineficiencia económica inaceptable para las factorías de IA a escala.

La plataforma Vera Rubin responde a esta crisis elevando la CPU a un plano de control central y activo. No se trata simplemente de un aumento de velocidad, sino de un cambio hacia un procesamiento determinista y de baja latencia capaz de gestionar miles de entornos de software concurrentes. Al integrar el nuevo CPU Vera con la GPU Rubin a través de enlaces de memoria coherentes de alta velocidad, NVIDIA ha eliminado la barrera física entre el razonamiento lógico y la potencia de cálculo masivo.

Evolución Generacional: De Blackwell a Vera Rubin

La comparación técnica entre la arquitectura Blackwell y la nueva plataforma Rubin demuestra un salto sin precedentes en densidad de transistores, ancho de banda de memoria y eficiencia de inferencia. La adopción de procesos de fabricación de clase 3nm de TSMC permite una densidad que sustenta el incremento en la complejidad de los núcleos y la capacidad de las memorias integradas.

Característica	NVIDIA Blackwell (B200)	NVIDIA Vera Rubin (R200)	Ventaja de Rubin
Proceso de Fabricación	TSMC 4NP	TSMC 3nm-class	Mayor densidad y eficiencia
Recuento de Transistores	208 Mil Millones	336 Mil Millones	1.6x de incremento
Tecnología de Memoria	HBM3e	HBM4	Ruptura del muro de memoria
Ancho de Banda de Memoria	8 TB/s	22 TB/s	2.8x más rápido
Inferencia (NVFP4)	10 PFLOPS	50 PFLOPS	5x de rendimiento
Entrenamiento (NVFP4)	10 PFLOPS	35 PFLOPS	3.5x de rendimiento
Interconexión GPU	NVLink 5 (1.8 TB/s)	NVLink 6 (3.6 TB/s)	Doble de ancho de banda
Coste por Token	Línea de base	10x Menor	Retorno de inversión masivo

La CPU Vera: Microarquitectura Olympus y el Motor de Datos Agéntico

El corazón de la innovación en la plataforma Rubin es la CPU Vera, el primer procesador del mundo diseñado específicamente para el razonamiento agéntico y el aprendizaje por refuerzo. A diferencia de los diseños tradicionales basados en chiplets que pueden introducir latencias de comunicación interna, la CPU Vera utiliza un diseño de troquel monolítico que integra 88 núcleos Olympus personalizados. Estos núcleos, compatibles con la arquitectura Armv9.2, representan el primer núcleo de CPU para centros de datos totalmente diseñado por NVIDIA, optimizado para maximizar el rendimiento por ciclo de instrucción (IPC) en cargas de trabajo de IA.

La microarquitectura Olympus ha sido diseñada para manejar la lógica de control pesada y los entornos de ejecución secuencial que definen a los agentes. Con un frontend de decodificación y captación de instrucciones de 10 vías y un predictor de saltos neuronal capaz de evaluar dos ramas tomadas por ciclo, Vera logra un salto generacional del 1.5x en IPC en comparación con los núcleos Neoverse V2 de la generación Grace. Este rendimiento es crítico para minimizar el tiempo de espera de la GPU mientras la CPU orquesta la siguiente acción del agente.

Multihilo Espacial (SMT): Una Nueva Dimensión de Concurrencia

Una de las innovaciones tecnológicas más destacadas de Vera es el Multihilo Espacial (NVIDIA Spatial Multithreading). A diferencia del multihilo simultáneo tradicional que suele alternar el uso de recursos mediante segmentación temporal, el multihilo espacial particiona físicamente los recursos del núcleo. Esto permite que cada CPU Vera soporte 176 hilos totales, con la capacidad de ajustar dinámicamente el equilibrio entre densidad de hilos y rendimiento por hilo en tiempo de ejecución.

Esta capacidad es fundamental para lo que NVIDIA denomina "sandboxing agéntico". Un sistema agéntico puede requerir miles de entornos de ejecución aislados donde se compila código, se ejecutan scripts o se realizan llamadas a bases de datos gráficas. El multihilo espacial garantiza que estos procesos tengan un rendimiento predecible y latencias mínimas de "cola" (tail latency), evitando que un proceso intensivo interfiera con la capacidad de respuesta de otros agentes en el mismo procesador.

Subsistema de Memoria y el Módulo SOCAMM

La CPU Vera rompe las limitaciones tradicionales de ancho de banda de la CPU al ofrecer hasta 1.2 TB/s mediante memoria LPDDR5X, lo que representa el doble del ancho de banda de los procesadores de servidor convencionales consumiendo la mitad de la energía. Este flujo masivo de datos es gestionado por la segunda generación del tejido de coherencia escalable de NVIDIA (SCF), que proporciona un ancho de banda de bisección de 3.4 TB/s a través del troquel monolítico.

Para facilitar esta densidad de memoria en el centro de datos, NVIDIA ha introducido los módulos de memoria acoplados por compresión de contorno pequeño (SOCAMM). Estos módulos permiten que la eficiencia energética de LPDDR5X sea compatible con la capacidad de servicio de nivel de servidor, sustituyendo la memoria soldada por módulos desmontables y actualizables. Con soporte para hasta 1.5 TB de capacidad, Vera ofrece el espacio necesario para gestionar los masivos cachés de Clave-Valor (KV) que requieren los modelos de razonamiento de largo contexto.

Métrica de Memoria	NVIDIA Grace	NVIDIA Vera	Mejora de Vera
Ancho de Banda Máximo	512 GB/s	1.2 TB/s	2.4x de incremento
Capacidad Máxima	480 GB	1.5 TB	3x de incremento
Tecnología de Empaque	LPDDR5X Soldada	LPDDR5X SOCAMM	Módulos reemplazables
Caché L2 por Núcleo	1 MB	2 MB	Doble de caché local
Caché L3 Unificada	114 MB	164 MB	Mayor localidad de datos

La GPU Rubin: HBM4 y el Motor de Transformer de Tercera Generación

Aunque la CPU Vera toma el control de la orquestación, la GPU Rubin sigue siendo el motor de cálculo paralelo predominante de la plataforma. La GPU Rubin R100 integra 336 mil millones de transistores y se apoya en un Motor de Transformer de tercera generación optimizado para el formato NVFP4 (punto flotante de 4 bits). Esta arquitectura permite alcanzar los 50 PetaFLOPS de rendimiento de inferencia por chip, una cifra que redefine la capacidad de proceso para modelos de billones de parámetros.

La innovación más disruptiva de la GPU Rubin es la integración de memoria HBM4. Al ser la primera arquitectura en adoptar esta tecnología, Rubin ofrece un ancho de banda de memoria de 22 TB/s, lo que representa un aumento de 2.8 veces respecto a la arquitectura Blackwell. Este inmenso "tubo" de datos es esencial para alimentar los núcleos de cómputo con los tokens necesarios sin que se produzcan cuellos de botella por falta de datos, una limitación común en arquitecturas previas cuando se enfrentaban a modelos de lenguaje masivos. Cada GPU Rubin está equipada con hasta 288 GB de esta memoria de ultra alta velocidad.

Precisión y Rendimiento Computacional

El Motor de Transformer de Rubin utiliza compresión adaptativa acelerada por hardware para maximizar el rendimiento en NVFP4 manteniendo la precisión del modelo. Este enfoque permite una escalabilidad masiva del rendimiento en diversas precisiones numéricas, como se detalla en la siguiente tabla para una sola GPU:

Formato de Precisión	Rendimiento Pico de Rubin
Inferencia NVFP4	50 PFLOPS
Entrenamiento NVFP4	35 PFLOPS
Entrenamiento FP8 / FP6	17.5 PFLOPS
FP16 / BF16	4 PFLOPS
TF32	2 PFLOPS
FP32 (Vectorial)	130 TFLOPS
FP32 (Matricial)	400 TFLOPS
FP64 (Matricial)	200 TFLOPS

Interconectividad y el Supercomputador de Rack NVL72

La unidad fundamental de la plataforma es el sistema de rack Vera Rubin NVL72, que funciona como un único acelerador gigante unificado mediante la sexta generación de NVLink. NVLink 6 proporciona 3.6 TB/s de ancho de banda bidireccional por GPU, lo que permite una comunicación de "todo con todos" dentro del rack. En una configuración completa NVL72, el ancho de banda interno total alcanza los 260 TB/s, una capacidad que, según NVIDIA, supera el tráfico total de la red troncal de internet global.

NVLink-C2C y el Espacio de Memoria Unificado

La integración simbiótica entre la CPU Vera y la GPU Rubin se logra a través de la tecnología NVLink-C2C (Chip-to-Chip) de segunda generación. Este enlace proporciona 1.8 TB/s de ancho de banda coherente, duplicando la velocidad de la generación Grace Blackwell. Esta conexión de ultra alta velocidad permite que la CPU y la GPU compartan un grupo de memoria coherente, reduciendo drásticamente las latencias de transferencia de datos que suelen plagar a los sistemas basados en PCIe Gen 6.

Gracias a esta coherencia, las aplicaciones pueden tratar los 1.5 TB de memoria LPDDR5X de la CPU y los 288 GB de HBM4 de la GPU como un único espacio de direccionamiento unificado. Esto permite técnicas avanzadas como la descarga del caché de Clave-Valor (KV-cache offloading); cuando la memoria HBM4 de la GPU se satura con contextos de conversación extremadamente largos, el sistema puede desplazar los datos hacia la memoria LPDDR5X de la CPU de manera transparente y sin penalizaciones de rendimiento significativas.

Refrigeración por Agua Caliente y Sostenibilidad

La inmensa densidad de potencia del sistema NVL72 (que puede alcanzar los 230 kW por rack) ha obligado a abandonar los métodos de refrigeración tradicionales. El sistema utiliza refrigeración líquida directa (DLC) de fase única, capaz de operar con agua a temperaturas de hasta 45°C (113°F). Este enfoque, denominado "refrigeración por agua caliente", elimina la necesidad de enfriadores mecánicos (chillers) de alto consumo energético, lo que permite una reducción del 30% en el consumo total de energía del centro de datos destinado a la climatización.

Redes y la Fábrica de IA a Gran Escala

Para escalar más allá de un solo rack hacia factorías de IA de gigavatios, la plataforma utiliza el SuperNIC ConnectX-9 y el interruptor Ethernet Spectrum-6. El ConnectX-9 ofrece 1.6 Tb/s de ancho de banda de red por GPU, con soporte nativo para RDMA (Acceso Directo a Memoria Remota) de baja latencia.

El interruptor Ethernet Spectrum-6 representa un avance histórico en la eficiencia de red al integrar óptica co-empaquetada (CPO) desarrollada conjuntamente con TSMC bajo la tecnología "COUPE". Con un ancho de banda agregado de 102.4 Tb/s, este interruptor ofrece una eficiencia energética cinco veces superior y una resiliencia de red diez veces mayor que las generaciones anteriores de Spectrum-X con transceptores enchufables tradicionales.

Especificaciones del Supercomputador de Rack NVL72

El rack NVL72 representa el pináculo de la ingeniería de sistemas integrados, como se detalla a continuación:

Métrica del Sistema	Especificación Vera Rubin NVL72
Inferencia Total (NVFP4)	3,600 PFLOPS
Entrenamiento Total (NVFP4)	2,520 PFLOPS
Memoria de GPU (HBM4)	20.7 TB
Memoria de CPU (LPDDR5X)	54 TB
Ancho de Banda NVLink Agregado	260 TB/s
Número Total de Chips (NVIDIA + HBM4)	1,296
Peso del Rack	~4,000 lbs
Consumo Máximo del Rack	~230 kW

El Rol de la DPU BlueField-4 y la Gestión de Contexto (CMX)

En la era agéntica, los modelos ya no son apátridas; dependen de una memoria de largo plazo que persiste a través de múltiples sesiones y herramientas. Esta memoria se materializa como el caché KV, que crece linealmente con la longitud de la secuencia de entrada. Para gestionar esta explosión de datos, NVIDIA ha introducido la plataforma de almacenamiento de memoria de contexto (CMX), potenciada por la DPU BlueField-4.

El Nivel de Almacenamiento G3 y la Eficiencia del Caché KV

La plataforma CMX crea un nuevo nivel de almacenamiento denominado "G3", que actúa como un puente de alto ancho de banda entre la memoria ultra rápida de la GPU y el almacenamiento compartido tradicional. Al descargar la gestión del caché KV a la DPU BlueField-4, el sistema puede retener la historia de las interacciones incluso después de que hayan sido expulsadas de la memoria HBM4 de la GPU.

La DPU BlueField-4 cuenta con 64 núcleos Arm Neoverse V2, lo que le otorga una potencia de cálculo seis veces superior a la de BlueField-3. Esta unidad actúa como un procesador de infraestructura que gestiona de forma segura el movimiento de datos y la terminación de protocolos NVMe-over-Fabrics, permitiendo una eficiencia de tokens por segundo (TPS) cinco veces mayor en comparación con las arquitecturas de almacenamiento tradicionales.

Característica de la DPU	BlueField-3	BlueField-4	Salto Generacional
Núcleos de Cómputo	16 Arm A78	64 Arm Neoverse V2	6x en Rendimiento
Ancho de Banda de Red	400 Gb/s	800 Gb/s	2x de Capacidad
Ancho de Banda de Memoria	75 GB/s	250 GB/s	3.3x más rápido
Capacidad de Memoria	32 GB	128 GB	4x de capacidad
Escalabilidad de Hosts	32K	128K	4x en densidad de nube

Inferencia de Ultra Baja Latencia: La Integración del Groq 3 LPU

Un componente inesperado pero crucial de la plataforma Rubin es el Groq 3 LPU (Unidad de Procesamiento de Lenguaje). Tras la adquisición de la tecnología de Groq en 2025, NVIDIA ha integrado este acelerador de inferencia determinista en el ecosistema Rubin para abordar las demandas de interactividad extrema. El Groq 3 LPU funciona como un co-procesador de inferencia especializado, optimizado específicamente para la fase de decodificación de tokens.

SRAM frente a HBM: El Poder del Determinismo

A diferencia de las GPUs, que dependen de la alta capacidad de HBM, el Groq 3 LPU utiliza exclusivamente memoria estática de acceso aleatorio (SRAM) integrada en el chip para lograr velocidades de acceso sin precedentes. Cada chip Groq 3 LPU contiene 500 MB de SRAM con un ancho de banda masivo de 150 TB/s. Este diseño elimina la necesidad de heurísticas de hardware complejas y permite una ejecución orquestada por compilador totalmente determinista, reduciendo el "jitter" de ejecución casi a cero.

En la configuración de rack LPX, 256 aceleradores Groq 3 LPU se combinan para ofrecer 128 GB de SRAM agregada y un ancho de banda de memoria de 40 PB/s por rack. Cuando se despliega junto al sistema Vera Rubin NVL72, el Groq 3 LPU acelera las partes más sensibles a la latencia del bucle de decodificación, permitiendo que las GPUs Rubin se centren en las fases de pre-llenado (prefill) y atención de largo contexto. Esta combinación permite alcanzar una eficiencia de inferencia 35 veces superior por megavatio para modelos de billones de parámetros.

Implicaciones Económicas y el Mercado de "Tokenomics"

La arquitectura Vera Rubin no solo es un avance técnico, sino una redefinición de la economía de la inteligencia artificial. Al reducir el coste por token de inferencia en un factor de diez en comparación con la arquitectura Blackwell, NVIDIA está transformando el cómputo de IA de un recurso de lujo en una utilidad básica comparable a la electricidad.

La Escalabilidad de la IA Agéntica

Se proyecta que los sistemas agénticos consumirán hasta 15 veces más tokens por usuario que las aplicaciones de IA tradicionales debido a la intensidad de la orquestación y las llamadas recurrentes a herramientas. Mientras que la IA de razonamiento aumentó el uso de tokens en 100 veces respecto a la IA generativa básica, los agentes autónomos que funcionan de manera persistente en segundo plano podrían aumentar la demanda en otras 1,000 veces.

La plataforma Rubin está diseñada para capitalizar esta demanda masiva. Para los proveedores de servicios de IA, la capacidad de producir lo que Jensen Huang denomina "tokens premium" (tokens rápidos con un contexto profundo) abre una oportunidad de ingresos diez veces mayor por vatio consumido en comparación con las generaciones anteriores. Este cambio está impulsando a los grandes laboratorios de IA (OpenAI, Anthropic, Meta) a adoptar Rubin como su infraestructura de facto para la próxima frontera de la inteligencia.

Comparativa de Rendimiento Agéntico

El dominio de Vera sobre las arquitecturas x86 tradicionales en tareas de orquestación es evidente en los primeros benchmarks publicados:

Categoría de Carga de Trabajo	Mejora de Vera frente a competidores x86
Cargas de Trabajo Agénticas	3.0x superior
Ejecución de Código Python	6.0x más rápido
Consultas SQL de IA	2.0x más rápido
Compilación de Código	2.0x más rápido
Rendimiento de Sandbox Agéntico	1.5x superior
Capacidad de Proceso de CPU (Nivel de Rack)	6.0x de ganancia

IA Soberana y Seguridad de Grado Nacional

Un pilar fundamental en el despliegue global de la plataforma Rubin es la iniciativa de "IA Soberana". Gobiernos de todo el mundo están reconociendo que la capacidad de cómputo de IA es tan crítica para la seguridad nacional como la energía o la soberanía alimentaria. La plataforma Rubin ofrece las garantías técnicas necesarias para que las naciones operen sus propias factorías de inteligencia de manera independiente y segura.

Computación Confidencial de Rack Completo

Las aplicaciones soberanas exigen una protección de datos absoluta. Vera Rubin introduce la tercera generación de computación confidencial de NVIDIA, que extiende la seguridad desde el chip individual hasta el rack completo. Esta tecnología asegura que los datos y los modelos de IA estén cifrados no solo en reposo o en tránsito, sino también mientras están en uso activo por la CPU y la GPU.

Mediante el uso de la DPU BlueField-4 y la arquitectura NVIDIA DOCA, la plataforma implementa un aislamiento de inquilinos (tenants) forzado por hardware y controles de seguridad de confianza cero (zero-trust). Esto garantiza que, incluso en despliegues multi-inquilino o nubes nacionales compartidas, los datos sensibles y los modelos propietarios permanezcan protegidos por barreras físicas e inviolables.

El Futuro de las Factorías de IA: Conclusiones

La arquitectura NVIDIA Vera Rubin marca el final de la era de los aceleradores discretos y el comienzo de la era de los sistemas de cómputo integrados a escala de rack. Al abordar directamente el cuello de botella del razonamiento agéntico mediante la CPU Vera y la microarquitectura Olympus, NVIDIA ha asegurado que el hardware no sea el factor limitante para la autonomía de la IA.

La integración de HBM4 en la GPU Rubin, junto con la potencia determinista de los LPUs de Groq y las capacidades de orquestación de datos de BlueField-4, crea un ecosistema donde cada componente ha sido co-diseñado para eliminar el cuello de botella del componente adyacente. El resultado es una infraestructura que no solo es más potente, sino fundamentalmente diferente: una fábrica de inteligencia capaz de sustentar sistemas que no solo responden a preguntas, sino que razonan, planifican y actúan en el mundo real. Con una reducción de diez veces en los costes de inferencia y una eficiencia energética sin precedentes, la plataforma Vera Rubin establece las bases para una economía global impulsada por agentes inteligentes autónomos, democratizando el acceso a la capacidad de cómputo de nivel supercomputacional para empresas y naciones por igual.

Volver al blog

PC Gamers

PC Gamer Nvidia

PC Gamers AMD

PC Gamers Intel

PC Gamer Radeon