Toutes les questions que pose DeepSeek

Daron Acemoglu

L'industrie américaine de l'IA avait besoin d’un “moment Spoutnik” pour secouer son autosatisfaction.

La publication de DeepSeek-R1, le 20 janvier, a déclenché une chute massive du cours de l'action du fabricant de puces Nvidia et une forte baisse de la valorisation de plusieurs autres entreprises technologiques. Certains ont alors déclaré qu'il s'agissait d'un « moment Spoutnik » dans la course sino-américaine à la suprématie dans le domaine de l'intelligence artificielle. L'industrie américaine de l’IA avait sans doute besoin d'être secouée. Mais cet épisode soulève des questions difficiles.

Des dollars, encore des dollars

Les investissements de la tech américaine dans l'IA ont été massifs. Goldman Sachs estime que « les grandes entreprises technologiques, les sociétés et les services publics devraient investir environ 1 000 milliards de dollars dans les années à venir pour soutenir l'IA ». Pourtant, depuis longtemps, de nombreux observateurs, dont je fais partie, s'interrogent sur l'orientation des investissements et du développement de l'IA aux États-Unis.

Toutes les grandes entreprises suivent essentiellement le même schéma (bien que Meta se soit légèrement différenciée avec un modèle partiellement open-source) : l'industrie semble avoir mis tous ses œufs dans le même panier. Sans exception, les entreprises technologiques américaines sont obsédées par l'échelle.

Invoquant des « lois de mise à l'échelle » qui n'ont pas encore été prouvées, elles partent du principe qu'introduire toujours plus de données et de puissance de calcul dans leurs modèles est la clé qui leur permettra de débloquer des capacités toujours plus grandes. Certaines affirment même que « Scale is all you need (la mise à l'échelle est tout ce dont vous avez besoin) ».

Avec DeepSeek, une nouvelle stratégie

Avant le 20 janvier, les entreprises américaines n'étaient pas disposées à envisager d'autres solutions, pour prédire le mot suivant dans une séquence, que les modèles de fondation pré-entraînés sur des ensembles massifs de données. Compte tenu de leurs priorités, elles se sont concentrées presque exclusivement sur les modèles de diffusion et les chatbots destinés à effectuer des tâches humaines (ou similaires).

Bien que l'approche de DeepSeek soit globalement la même, elle semble s'appuyer davantage sur l'apprentissage par renforcement, les méthodes de mélange d'experts (en utilisant de nombreux modèles plus petits et plus efficaces), la distillation et le raisonnement en chaîne de pensée. Cette stratégie lui aurait permis de produire un modèle compétitif pour une fraction du coût.

Bien que l'on ne soit pas sûr que DeepSeek ait été complètement transparent, cet épisode a mis en évidence la « pensée collective » au sein de l'industrie américaine de l'IA. Son aveuglement face à des approches alternatives, moins coûteuses et plus prometteuses, combiné au battage médiatique, est précisément ce que Simon Johnson et moi-même avions prédit dans Power and Progress, que nous avions écrit juste avant le début de l'ère de l'IA générative.

La première question est maintenant de savoir si l'industrie américaine a d'autres angles morts, encore plus dangereux. Par exemple, les principales entreprises technologiques américaines sont-elles en train de passer à côté de l'occasion d'orienter leurs modèles dans une direction plus « pro-humaine » ? Je pense que la réponse est oui, mais seul l'avenir nous le dira.

Un nouveau bond en avant

Ensuite, il se pose la question de savoir si la Chine est en train de faire un bond en avant par rapport aux États-Unis. Si tel est le cas, cela signifie-t-il que les structures autoritaires et descendantes (ce que James A. Robinson et moi-même avons appelé les « institutions extractives ») peuvent égaler, voire surpasser, les dispositifs ascendants, “bottom-up”, pour stimuler l'innovation ?

J'ai tendance à penser que le contrôle du haut vers le bas entrave l'innovation, comme Robinson et moi-même l'avons soutenu dans Why Nations Fail. Si le succès de DeepSeek semble remettre en cause cette affirmation, il est loin de prouver que l'innovation dans le cadre d'institutions extractives peut être aussi puissante ou durable que dans le cadre d'institutions inclusives.

Après tout, DeepSeek s'appuie sur des années d'avancées aux États-Unis (et dans une certaine mesure en Europe). Toutes ses méthodes de base ont été mises au point aux États-Unis. Les modèles de mélange d'experts et l'apprentissage par renforcement ont été développés dans des instituts de recherche universitaires il y a plusieurs dizaines d'années, et ce sont les entreprises américaines du secteur des grandes technologies qui ont introduit les modèles de transformation, le raisonnement par chaîne de pensée et la distillation.

Ce que DeepSeek a fait, c'est démontrer sa réussite en matière d'ingénierie : combiner plus efficacement les mêmes méthodes que les entreprises américaines. Il reste à voir si les entreprises et les instituts de recherche chinois peuvent franchir l'étape suivante en proposant des techniques, des produits et des approches qui changeront la donne.

Un symbole des tensions sino-américaines

En outre, DeepSeek semble se distinguer de la plupart des autres entreprises chinoises spécialisées dans l'IA, qui produisent généralement des technologies pour le gouvernement ou avec des fonds publics. Si l'entreprise, issue d'un fonds spéculatif, opérait sous le radar, sa créativité et son dynamisme se maintiendront-ils, maintenant qu'elle est sous les feux de la rampe ? Quoi qu'il en soit, la réussite d'une entreprise ne peut être considérée comme une preuve irréfutable que la Chine peut battre des sociétés plus ouvertes en matière d'innovation.

Une autre question concerne la géopolitique. La saga DeepSeek signifie-t-elle que les contrôles américains à l'exportation et les autres mesures visant à freiner la recherche chinoise en matière d'IA ont échoué ? La réponse à cette question n'est pas claire non plus. Si DeepSeek a entraîné ses derniers modèles (V3 et R1) sur des puces plus anciennes et moins puissantes, il se peut qu'elle ait encore besoin des puces les plus puissantes pour réaliser de nouvelles avancées et passer à l'échelle supérieure.

La nécessaire réaction de l’Amérique

Néanmoins, il est clair que l'approche américaine à somme nulle était inapplicable et malavisée. Une telle stratégie n'a de sens que si l'on croit que nous nous dirigeons vers l'intelligence artificielle générale (des modèles capables d'égaler les humains dans n'importe quelle tâche cognitive) et que celui qui atteindra l'intelligence artificielle générale (AGI) en premier disposera d'un énorme avantage géopolitique.

En nous accrochant à ces hypothèses – dont aucune n'est nécessairement justifiée –, nous avons empêché une collaboration fructueuse avec la Chine dans de nombreux domaines. Par exemple, si un pays produit des modèles qui augmentent la productivité humaine ou nous aident à mieux réguler l'énergie, cette innovation sera bénéfique pour les deux pays, surtout si elle est largement utilisée.

Comme ses cousins américains, DeepSeek aspire à développer l'AGI. La création d'un modèle dont l’entraînement est nettement moins coûteux pourrait changer la donne, mais réduire les coûts de développement avec des méthodes connues ne nous mènera pas miraculeusement à l'AGI dans les prochaines années. La question de savoir si l'AGI est réalisable à court terme reste ouverte (et celle de savoir si elle est souhaitable est encore plus discutable).

Même si nous ne connaissons pas encore tous les détails sur la manière dont DeepSeek a développé ses modèles ou sur ce que sa réussite apparente signifie pour l'avenir de l'industrie de l'IA, une chose semble claire : un nouveau venu chinois a brisé l'obsession de l'industrie technologique pour la mise à l'échelle. Elle a peut-être même ébranlé sa complaisante autosatisfaction.

Pour en savoir plus :

Daron Acemoglu, lauréat du prix Nobel d'économie en 2024 et professeur d'économie au MIT, est coauteur (avec James A. Robinson) de Why Nations Fail : The Origins of Power, Prosperity and Poverty (Profile, 2019) et coauteur (avec Simon Johnson) de Power and Progress : Our Thousand-Year Struggle Over Technology and Prosperity (PublicAffairs, 2023).

Cet article a initialement été publié en anglais sur Project Syndicate le 4 février, traduction : Qant.

Qant est membre de Project Syndicate.

L’essentiel