D’un cofondateur à l'autre. Gordon Moore était surtout connu pour sa “loi” très marketing qui a conduit Intel, qu’il avait participé à créer en 1968, à doubler tous les deux ans le nombre de transistors sur ses CPU. Mais les prodiges de gravure que cela implique désormais la rendent de plus en plus obsolète.
En 2016, le cofondateur de Nvidia Huang Renxun, connu dans le monde entier comme Jensen Huang, a proposé de la remplacer. Il a repris à son compte pour cela, sans la citer, la loi de Koomey, qui énonce que la capacité de calcul par unité d’énergie double tous les 18 mois environ. Le marketing de Nvidia a tenté d’en faire la “loi de Huang” et de s’en servir comme argument pour sa tentative de racheter ARM, sans succès.
L'origine de la loi dite de Huang • Source : Koomey et al., 2010.
Cependant, la même année, Jensen Huang avait remarqué que les GPU de Nvidia étaient 25 fois plus rapides qu'elles ne l'étaient cinq ans plus tôt.
La dernière GPU présentée ce lundi par le CEO de Nvidia (lire Qant du 19 mars), le Blackwell B200, fait encore mieux. Alors que la GPU Hopper, présentée il y a deux ans, annonçait 80 milliards de transistors, la B200 en compte 208 milliards. Une performance qui permet à la B200 d'offrir jusqu'à 20 pétaflops de puissance de calcul contre 4 pétaflops pour Hopper.
Selon Nvidia, deux GPU B200 combinées à une seule CPU Grace peuvent permettre d'atteindre des performances jusqu'à 30 fois supérieures à celle de la GPU Hopper H100 pour l'inférence de grands modèles de langage, tout en réduisant les coûts et la consommation d'énergie jusqu'à 25 fois.
Un petit effort marketing et une nouvelle “loi” peut naître, résumant l’exponentielle qui préside à la puissance des GPU.
La nouvelle loi de Huang • Source : Nvidia
Quelle que soit la manière dont on la formalise, cette nouvelle tendance aura des effets profonds. L’émergence des GPT et toute la vague de l’IA générative n’aurait pas été possible sans les GPU Hopper et les H100. Blackwell permettra, d’après Nvidia, des modèles à mille milliards de paramètres, alors que les plus puissants aujourd’hui n’en comptent que quelques centaines (GPT-4, par exemple, réunit semble-t-il 8 modèles de 220 milliards de paramètres).
Jensen Huang, lundi, a donné des exemples. L’entraînement d'un modèle de 1 800 milliards de paramètres, qui nécessitait auparavant 8 000 GPU Hopper et 15 mégawatts de puissance, peut désormais être réalisé avec seulement 2 000 GPU Blackwell, consommant 4 mégawatts. Le prix devrait s’étager entre 30 000 et 40 000 dollars par GPU (28 000 à 36 000 euros, soit environ le prix de marché d’un H100).
En s’étalonnant sur GPT-3, qui compte 175 milliards de paramètres, la puce Grace Blackwell 200 offre sept fois la performance d'un Hopper 100, et elle quadruple la vitesse d’entraînement. Une des innovations clés est le moteur de transformation de deuxième génération qui double le calcul, la bande passante et la taille des modèles en utilisant quatre bits par neurone au lieu de huit. De plus, une nouvelle version de l'interrupteur NVLink permet à 576 GPUs de communiquer entre elles, avec une bande passante bidirectionnelle de 1,8 téraoctets par seconde.
En début de mois, Jensen Huang affirmait devant un parterre de l'université de Stanford que l'intelligence artificielle générale (AGI) pourrait arriver d'ici à cinq ans (lire Qant du 5 mars).
Ce qui, en extrapolant, supposerait des puces 25 fois plus puissantes qu’aujourd’hui.
Pour en savoir plus :
- Nvidia
- Microsoft
- The Verge
- Koomey J. et al.,Implications of Historical Trends in the Electrical Efficiency of Computing, IEEE Annals of the History of Computing, 2010