Architektura NVIDIA Rubin – brzký nástupce Blackwellu ?

Slávka

5 měsíců ago

NVIDIA Rubin není jen další grafický čip, ale celá komplexní architektura, která posouvá výpočetní techniku s umělou inteligencí na novou úroveň. Po Blackwellu přichází Rubin jako základ pro datová centra a přináší s sebou několik specializovaných čipů, které spolupracují jako jeden systém.

Rodina NVIDIA Rubin zahrnuje tři hlavní části: GPU Rubin s pamětí HBM určenou ke generování výstupů, Rubin CPX, akcelerátor pro zpracování obrovského kontextu, a Vera Rubin CPU, nový procesor, který řídí úlohy a doplňuje GPU i CPX.

Největší pozornost na sebe strhává Rubin CPX. Tento čip dokáže zpracovat až milion tokenů kontextu v jediném kroku. Token je základní vstupní jednotka, kterou umělá inteligence zpracovává. Může to být kus textu (část slova, znak), příkaz v kódu nebo v multimodálních modelech dokonce úsek zvuku nebo malý kousek obrázku. Milion tokenů tedy znamená, že model může zpracovávat obsah na úrovni stovek tisíc slov, celých projektů nebo dlouhých multimediálních souborů najednou, aniž by je rozděloval na části.

V praxi to znamená, že umělá inteligence dokáže najednou přečíst celou knihu, rozsáhlý programátorský projekt nebo hodinové video, aniž by obsah rozdělila na části. To je zásadní posun oproti tradičním GPU, které musely data zpracovávat sekvenčně.

Jak funguje architektura NVIDIA Rubin

Zpracování dat v UI probíhá ve dvou krocích. Nejprve model přečte celý vstup (kontextová fáze – prefill), poté vytvoří výsledek (fáze generování). Klasické GPU musely zpracovávat obě fáze najednou, což způsobovalo zbytečné přetížení a nižší efektivitu.

Architektura Rubin zavádí nový přístup, který se nazývá disagregovaná inference. Úlohy jsou rozděleny mezi specializované čipy:

Rubin CPX je optimalizován pro vyhledávání a zpracování kontextu. Díky své velké paměti může připravit celý vstup najednou a uložit jej do mezipaměti klíč-hodnota, kterou pak využívají ostatní čipy.
GPU Rubin s pamětí HBM se zaměřuje především na fázi generování výstupu – tedy na vlastní generování textu, obrázků nebo videa. GPU technicky zvládá i předvyplňování, ale v Rubin je tento úkol přesunut na CPX, který jej zvládá efektivněji.
CPU Vera Rubin doplňuje systém jako řídicí jednotka. Zajišťuje organizaci menších logických úloh, koordinuje tok dat a komunikuje se softwarovým orchestrátorem.

Tyto čipy nejsou spojeny do jednoho procesoru. Nacházejí se odděleně v datových centrech a komunikují mezi sebou prostřednictvím vysokorychlostní infrastruktury, jako jsou síťové adaptéry NVLink a ConnectX-9. Koordinaci celého procesu řídí software (například NVIDIA Dynamo), který zajišťuje, aby jednotky pracovaly jako jeden celek.

Výsledkem je systém, kde každý čip dělá to, co umí nejlépe. CPX zpracovává obrovský kontext, GPU generují výstupy bez úzkých míst a CPU Vera řídí jejich vzájemnou spolupráci. Tento přístup přináší vyšší výkon, lepší efektivitu a umožňuje AI pracovat s daty v měřítku, které bylo dříve nedosažitelné. ddelene v datových centrech, propojených vysokorychlostní infrastrukturou a softwarem.

Tato animace ukazuje, jak architektura NVIDIA Rubin rozděluje práci mezi jednotlivé čipy. To, co dříve musel zvládnout jeden univerzální GPU čip, je nyní rozděleno – část výpočtů je přesunuta na specializovaný akcelerátor, zatímco GPU se soustředí na svůj vlastní úkol. Animace tak ilustruje princip rozděleného odvozování, kdy každá jednotka dostane přesně ten typ práce, ke kterému je určena.

Technologie NVIDIA Rubin a rozdíl oproti Blackwellu

NVIDIA Rubin přináší nejen vyšší výkon, ale i zcela nový přístup k návrhu čipů. Každá komponenta je postavena na jiné paměťové technologii a má v systému svou vlastní roli.

Rubin CPX

Využívá vysokokapacitní paměť GDDR7. Tato kombinace mu umožňuje efektivně zpracovávat obrovské vstupy a pracovat s mechanismy, které byly u předchozích GPU velmi pomalé. Ve srovnání s generací Blackwell dokáže provádět výpočty pozornosti až třikrát rychleji. Současně má vestavěné specializované jednotky pro video, takže je vhodný pro multimodální aplikace, kde se kombinuje text, video a zvuk.

GPU Rubin

Mají paměť HBM, která má extrémně širokou propustnost. To znamená, že při generování výsledků čip nebrzdí pohyb dat a může plně využít výpočetní jádra. NVIDIA zatím oficiálně představila pouze verze určené pro datová centra a výpočty umělé inteligence, ale podle úniků a analýz se očekává, že architektura Rubin může tvořit základ i budoucích herních karet RTX.

Procesor Vera Rubin

Je zcela nová architektura procesoru. Jejím úkolem není být rychlejší než GPU, ale zajistit bezproblémovou spolupráci všech čipů. Řeší koordinaci a logiku v datových centrech a zbavuje GPU a CPX úkolů, které by je zdržovaly.

Rozdíl oproti Blackwellu

Na rozdíl od Blackwellu, který byl univerzálnější a mohl být nasazen od herních počítačů až po servery, je NVIDIA Rubin jako specializovaný systém. Každý čip dělá jen to, v čem je nejefektivnější. Výsledkem je vyšší výkon na watt, rychlejší zpracování velkých vstupů a lepší škálovatelnost v datových centrech.

Rubin má prý sice architektonické kořeny v čipu GB202 (z RTX 5090), ale jeho uspořádání bylo výrazně přepracováno – od jiných výpočetních bloků, přes více jednotek ROP (jednotky ROP = části GPU, které zapisují hotové pixely do obrazu; důležité pro hry, ne pro výpočty umělé inteligence) až po nové řešení paměti. Tyto podrobnosti zatím nejsou oficiální, jde o informace z úniků a analýz.

Největší změnou však je, že NVIDIA Rubin dokáže zpracovávat data, která by Blackwell musel rozdělit na menší části. To otevírá nové možnosti – od trénování multimodálních modelů s extrémním kontextem až po generování konzistentního videa s dějem v průběhu dlouhých hodin záznamu.

Kdy NVIDIA Rubin přichází

Podle dostupných informací se očekává, že architektura NVIDIA Rubin bude uvedena na trh koncem roku 2026. Spolu s hardwarem připravuje NVIDIA také kompletní softwarový balíček, který bude obsahovat:

NVIDIA AI Enterprise Platform,
knihovny CUDA-X,
a nový orchestrátor Dynamo, který spravuje inferenci v datových centrech a zajišťuje spolupráci mezi Rubin CPX, GPU Rubin a procesory Vera.

Ačkoli se jedná především o řešení pro velké podniky a datová centra, výhody této architektury pocítí i koncoví uživatelé. Vývojáři získají výkonnější nástroje umělé inteligence a běžní lidé aplikace schopné zpracovávat celé dokumenty, dlouhé konverzace nebo hodiny videa bez ztráty kontextu.

Vera Rubin NVL144 CPX – datové centrum AI budoucnosti

Architektura NVIDIA Rubin se netýká jen jednotlivých čipů, ale také velkých serverových sestav. Největší z nich je Vera Rubin NVL144 CPX – racková konfigurace, která kombinuje akcelerátory a procesory do jediného superpočítače.

Jeho výkon dosahuje až 8 exaFLOPS v přesnosti NVFP4. Pro představu – 1 exaFLOPS znamená 10¹⁸ operací za sekundu, tedy miliardu miliard miliard výpočtů. Jedna operace představuje základní matematickou operaci, například sčítání nebo násobení desetinných čísel. Celý rack má 100 TB rychlé paměti a datovou propustnost 1,7 PB/s, což je přibližně 7,5 krát více než předchozí generace GB300 NVL72.

Takový systém může analyzovat obrovské softwarové kódy najednou, trénovat modely s extrémně dlouhým kontextem nebo generovat video, které zůstává konzistentní po celé hodiny záznamu.

Co můžeme vyčíst z obrázku

Obrázek ukazuje celý rack Vera Rubin NVL144 CPX a jeho základní stavební prvek – výpočetní zásobník.

Vlevo je celý rack s desítkami těchto modulů vnořených na sebe. Číslo „144“ znamená, že sestava obsahuje až 144 akcelerátorů Rubin CPX spolu s GPU a procesory Vera.
Vpravo je detailní záběr na jednu zásuvku (výpočetní zásobník). Tento modul je vlastně kompletní server, kde všechny hlavní části architektury Rubin pracují společně:
- GPU Rubin s pamětí HBM – generují výstupy umělé inteligence,
- CPU Vera – koordinuje a řídí tok dat,
- Rubin CPX – zpracovává obrovský kontext,
- Adaptéry ConnectX-9 – zajišťují superrychlé propojení mezi moduly a stojany.

Každý výpočetní zásobník je tedy samostatnou výpočetní jednotkou. Když se jich v jednom racku spojí více, vznikne systém, který funguje jako jeden obrovský superpočítač s umělou inteligencí a výkonem třídy exaFLOPS.

Závěr

Architektura NVIDIA Rubin není jen dalším krokem ve vývoji grafických čipů, ale i novou érou ve výpočetní technice AI. Díky rozdělení úloh mezi specializované čipy – CPX, GPU a CPU Vera – přináší řešení, které je výkonnější, úspornější a dokáže zpracovávat data v měřítku, které bylo ještě nedávno nemožné.

Pro datová centra to znamená obrovský posun ve škálovatelnosti a efektivitě. Pro vývojáře nové možnosti vytváření modelů s extrémně dlouhým kontextem nebo multimodálními vstupy. A pro běžné uživatele aplikace, které dokážou porozumět celým dokumentům, dlouhým konverzacím nebo videím, aniž by ztratily kontext.

NVIDIA Rubin tak není jen technickou inovací, ale také základem pro budoucí generace umělé inteligence – od průmyslových řešení až po každodenní nástroje, které budeme všichni používat.