DeepSeek, le géant qui choisit la recherche plutôt que l’audience

DeepSeek travaille dans l’ombre • Qant avec GPT-4o

Moins de six mois après avoir secoué le marché avec un modèle de langage à très bas prix, DeepSeek voit son influence s’éroder. En cause : une stratégie d’allocation des ressources focalisée sur la recherche, au détriment de l’expérience utilisateur.

Le lancement du modèle DeepSeek R1 a été perçu, cet hiver, comme un séisme dans l’écosystème de l’intelligence artificielle. Pour la première fois, un laboratoire chinois proposait un modèle en accès public dont les performances en raisonnement rivalisaient avec celles des modèles d’OpenAI, tout en affichant un prix d’utilisation jusqu’à 90 % inférieur.

À peine cinq mois plus tard, une analyse publiée par SemiAnalysis révèle un revers de fortune apparent : la part de marché de DeepSeek s’effondre, son trafic en ligne recule, et ses propres services sont délaissés au profit de versions hébergées par des tiers.

En réalité, l’usage du modèle R1 explose sur des plateformes externes comme OpenRouter, qui propose un accès unifié à plus de 400 modèles d’intelligence artificielle (IA) provenant de plus de 60 fournisseurs. Et les entreprises chinoises déploient massivement ses modèles. Seules, les interfaces de distribution grand public – application web et API – perdent des utilisateurs, au moins à l’international. Cette dichotomie intrigue, car elle survient malgré des prix restés très bas. L’explication tient en un mot, forgé par SemiAnalysis : tokenomics.

Une économie du jeton dictée par la contrainte

La tokenomics, ou économie du jeton, désigne la façon dont les modèles sont servis, tarifés et optimisés à partir d’un équilibre entre plusieurs indicateurs de performance. Trois d’entre eux sont déterminants : la latence, c’est-à-dire le temps écoulé avant l’apparition du premier jeton ; l’interactivité, ou rapidité de génération des jetons suivants ; et la taille de la fenêtre de contexte, qui correspond à la mémoire immédiate du modèle. Ces paramètres peuvent être ajustés pour maximiser l’utilisation des ressources, quitte à détériorer l’expérience utilisateur.

Dans le cas de DeepSeek, le prix très bas du service s’explique par une latence initiale élevée, atteignant parfois plusieurs dizaines de secondes avant qu’un premier mot ne s’affiche. De plus, la fenêtre de contexte est limitée à 64 000 jetons, bien en deçà des standards actuels, ce qui bride les usages en programmation ou en analyse documentaire. Enfin, l’interactivité reste faible, les jetons étant générés lentement, ce qui nuit à la fluidité des échanges.

Un choix stratégique assumé

Ces compromis sont le fruit d’un choix stratégique. DeepSeek ne cherche pas à maximiser ses revenus ni à fidéliser ses utilisateurs finaux. Son objectif prioritaire est de conserver un maximum de ressources de calcul pour la recherche interne, en particulier l’entraînement de futurs modèles. L’infrastructure d’inférence – celle qui sert les utilisateurs – est volontairement sous-dimensionnée. En contrepartie, DeepSeek mise sur l’open source et sur l’hébergement par des tiers pour diffuser ses modèles et accroître leur notoriété à l’international.

SemiAnalysis compare ce positionnement à celui d’Anthropic, autre acteur majeur de l’IA, lui aussi limité par ses capacités de calcul. Pour gérer la montée en charge de ses modèles Claude, Anthropic pratique également le regroupement de requêtes sur les mêmes GPU, augmentant ainsi la latence. Toutefois, son approche est plus orientée utilisateur, comme en témoigne le succès de son outil de codage Claude Code, qui surpasse désormais les solutions équivalentes d’OpenAI.

La nouvelle métrique : l’intelligence par jeton

Les différences résident aussi dans l’efficacité par jeton. Selon SemiAnalysis, les modèles Claude nécessitent en moyenne trois fois moins de jetons pour produire des réponses comparables à celles de DeepSeek ou Gemini, un avantage qui compense en partie la lenteur d’exécution. Cette dimension – l’intelligence par jeton – devient un facteur clé dans la compétition entre modèles.

Enfin, la stratégie de DeepSeek s’inscrit dans un contexte géopolitique contraint. Les restrictions à l’exportation de matériel imposées à la Chine compliquent l’accès aux ressources de calcul nécessaires à l’inférence à grande échelle. En concentrant les ressources disponibles sur la recherche et en externalisant la diffusion, DeepSeek contourne partiellement cette limitation, au prix d’une expérience utilisateur dégradée sur ses propres services.

Ainsi, derrière les chiffres bruts de performance et de prix se cache une réalité plus nuancée : la valeur d’un modèle d’intelligence artificielle dépend autant de son intelligence par jeton que de sa stratégie de déploiement. DeepSeek a prouvé qu’il pouvait produire un modèle de pointe. Reste à savoir s’il parviendra à concilier diffusion massive et ambition scientifique dans un environnement de plus en plus concurrentiel.

Pour en savoir plus :

L’essentiel