Longtemps, on a pensé que l’inférence allait prendre le relais de l’entraînement des modèles d’IA, offrant aux fabricants de CPU comme Intel et AMD la possibilité de prendre leur revanche. ARM a même basé sur cette idée son offensive vers le marché des datacenters.
Las, l’enthousiasme vers l’entraînement ou le réentraînement (“fine-tuning”) de modèles ne faiblit pas depuis début 2023, au contraire. Et Nvidia détient au moins les quatre cinquièmes de ce marché – sans doute plus encore, pour ce qui est des datacenters.
AMD, Intel et les autres
AMD et Intel se sont donc lancées dans la production de GPU. AMD prévoit de générer environ 4 milliards de dollars (3,7 milliards d'euros) de revenus grâce à ses puces IA cette année, tandis qu'Intel a lancé de nouvelles puces en avril et anticipe 500 millions de dollars (460 millions d'euros) de revenus pour la seconde moitié de l'année.
La start-up californienne Sambanova Systems, qui a levé 1,1 milliard de dollars depuis 2017, a présenté une puce qui se targue de pouvoir calculer efficacement aussi bien l’entraînement d’un modèle à 1 000 milliards de paramètres que les calculs d’inférence après l’entraînement. La SL40 présente une architecture mémoire à trois échelons qui prétend résoudre l’un des problèmes les plus pressants des GPU - l’accès à la mémoire pour les calculs massivement parallèles des processeurs.
L’assiette de Cerebras
Les GPU sont particulièrement efficaces pour exécuter des tâches en parallèle grâce à leurs milliers de cœurs. Cependant, un problème majeur est la vitesse à laquelle les données peuvent être transférées vers et depuis ces cœurs. Lors de l'entraînement des grands modèles IA, certains cœurs peuvent rester inactifs jusqu'à la moitié du temps, ce qui entraîne des inefficacités.
Les start-up tentent de résoudre ce problème en intégrant davantage de cœurs et de mémoire sur une seule puce. La californienne Cerebras, par exemple, a créé un accélérateur de la taille d'une assiette, comprenant 900 000 cœurs et une grande quantité de mémoire. La start-up a levé 715 millions de dollars depuis 2016 et elle étudie, semble-t-il une entrée en Bourse.
Les oeuvres de MatX
MatX, de son côté, a été lancé par deux anciens ingénieurs de Google, Mike Gunter et Reiner Pope. Spécialisée dans les processeurs pour les modèles de langage, MatX a déjà levé 25 millions de dollars (23 millions d'euros) en décembre dernier, dans un tour d’amorçage. Les fondateurs affirment que leurs puces seront dix fois plus efficaces pour entraîner les LLM que les GPU de Nvidia en éliminant les composants inutiles et en se concentrant sur des cœurs de traitement uniques. Le premier produit est prévu pour 2025.
La start-up californienne Groq a elle présenté fin février un nouveau type de puce, le Groq Language Processing Unit Inference Engine, dont le moteur d'inférence promet d'accélérer considérablement les temps de réponse des chatbots d'IA, grâce à une vitesse de plus de 300 tokens par seconde par utilisateur.
De plus en plus d'entreprises cherchent à développer des modèles plus petits et spécifiques à certaines tâches, qui ne nécessitent pas la même puissance de calcul que les modèles plus grands. C’est là qu’interviennent les accélérateurs de l’israélienne Hailo, qui vient de lever 120 millions de dollars (lire Qant du 4 avril) portant le total levé à 344 millions depuis 2017. Elle entend favoriser le machine learning sur le edge, le bord du réseau et les terminaux.
Le plan de Nvidia
Cela pourrait réduire la demande pour les puces Nvidia. Les géants de la technologie comme Amazon, Google, Meta et Microsoft conçoivent en outre leurs propres puces, ouvrant un nouveau front.
Pour maintenir son élan, Nvidia mise sur l'expansion de son rôle au-delà de la fabrication de puces. L'entreprise se positionne comme un fournisseur clés-en-mains de centres de données, essentiels pour l'intelligence artificielle. Jensen Huang, CEO de Nvidia, a déclaré que l'entreprise ne se contente pas de produire des puces, mais qu'elle construit des "usines d'IA" en fabriquant des composants critiques comme des puces de traitement central, des puces de réseau et des logiciels.
Nvidia prévoit également de lancer de nouvelles générations de ses puces les plus avancées, connues sous le nom de Blackwell, plus tard cette année. L'entreprise élargit également son offre en matière de centres de données, proposant une gamme croissante de puces de réseau et d'autres infrastructures nécessaires pour construire de grands systèmes de calcul IA.
Pour en savoir plus :