Quand l’IA plafonnera

“Le plafond de verre de l’IA” • Une illustration de Qant, M. de R., avec GPT-4o

Selon l’institut Epoch AI, les performances des modèles de raisonnement pourraient bientôt atteindre un plafond, malgré des investissements croissants dans l’apprentissage par renforcement.

Les modèles d’intelligence artificielle à apprentissage renforcé, dits “de raisonnement”, comme o3 d’OpenAI ou DeepSeek R1, ont connu des avancées notables en peu de temps. Cependant, selon un rapport publié ce mois-ci par l'institut de recherche Epoch AI, ces progrès pourraient bientôt ralentir. L’étude indique que, si le rythme actuel de croissance se maintient, les limites des capacités de calcul disponibles pourraient être atteintes d’ici un an.

Depuis le lancement d'o1 d’OpenAI, les modèles de raisonnement ont vu leur puissance de calcul dédiée multipliée par dix en seulement quatre mois, avec le passage à o3. Cette augmentation rapide a permis des améliorations significatives des performances sur des benchmarks comme l’Aime, qui évalue les capacités de raisonnement mathématique avancé. Cependant, cette croissance exponentielle n’est pas durable indéfiniment.

Des ressources informatiques sous pression

Josh You, analyste chez Epoch AI et auteur de l’analyse, souligne que si cette tendance se poursuit, le volume total de calcul nécessaire pour l’entraînement atteindra rapidement les limites des ressources disponibles. À ce stade, le rythme des progrès devrait ralentir pour s’aligner sur le taux de croissance annuel moyen du calcul d’entraînement, qui quadruple chaque année (alors que les modèles de raisonnement décuplent ou plus d’un modèle sur l’autre).

Le développement de modèles de raisonnement repose sur une phase d’entraînement intensive en ressources, distincte de la pré-formation traditionnelle des modèles de langage. Cette phase, appelée "entraînement au raisonnement", utilise des techniques comme l’apprentissage par renforcement avec retour d’information humain (RLHF) ou synthétique pour améliorer les capacités de résolution de problèmes complexes.

Des limites économiques et techniques

Les informations publiques sur la quantité exacte de calcul utilisée pour cet entraînement sont limitées. OpenAI a indiqué que le modèle o3 représente une augmentation de 10 fois le calcul d’entraînement par rapport à o1, mais sans fournir de chiffres précis. D’autres modèles, comme DeepSeek-R1, offrent des indications similaires, mais les détails restent rares.

Au-delà des contraintes matérielles, le coût financier de l’entraînement de ces modèles devient un facteur limitant. L’augmentation rapide des besoins en calcul entraîne des dépenses croissantes, rendant les améliorations marginales de plus en plus coûteuses. Cette situation soulève des questions sur la viabilité économique de la poursuite de l’expansion des modèles de raisonnement à grande échelle.

Données limitées et qualité en jeu

La disponibilité des données de haute qualité pour l’entraînement constitue une autre contrainte. Certaines analyses suggèrent que les données textuelles générées par l’homme pourraient être épuisées entre 2026 et 2032, obligeant les entreprises à se tourner vers des données synthétiques, avec des risques potentiels pour la qualité des modèles.

En parallèle, la question de la reproductibilité et de la transparence des expériences devient cruciale. De nombreux modèles avancés ne publient pas leurs poids, leurs jeux de données d’entraînement ni les détails de leur pipeline d’alignement, ce qui complique l’évaluation comparative de leurs performances et de leur robustesse.

Vers de nouvelles approches pour maintenir les progrès

Face à ces défis, les chercheurs explorent des alternatives pour continuer à améliorer les capacités des modèles de raisonnement sans dépendre uniquement de l’augmentation des ressources informatiques. Parmi les pistes envisagées figurent l’optimisation des algorithmes, l’amélioration de l’efficacité de l’entraînement et l’utilisation de données synthétiques générées par d’autres modèles d’IA.

Des initiatives comme le benchmark FrontierMath d’Epoch AI visent à évaluer les capacités de raisonnement avancé des systèmes d’IA, en se concentrant sur des problèmes mathématiques complexes nécessitant des heures ou des jours de travail pour des experts humains. Ces efforts pourraient guider le développement de modèles plus performants sans recourir à une augmentation massive des ressources.

Une transition vers une nouvelle phase de développement

Le rapport d’Epoch AI met en évidence une transition possible vers une phase de développement plus lente mais plus durable des modèles de raisonnement. Alors que les gains rapides obtenus grâce à l’augmentation des ressources pourraient diminuer, l’accent pourrait se déplacer vers des améliorations qualitatives, telles que la robustesse, la fiabilité et la capacité à généraliser à de nouveaux types de problèmes.

Cette évolution nécessitera une collaboration étroite entre les chercheurs, les ingénieurs et les décideurs pour définir des stratégies d’entraînement efficaces, gérer les ressources de manière optimale et garantir que les modèles de raisonnement continuent de progresser tout en respectant les contraintes techniques et économiques.

Pour en savoir plus :

L’essentiel