Les grands modèles de langage (LLM) ont circonscrit le plateau qu’ils avaient atteint grâce à “l’inference-time compute”, la technique à la base des modèles de raisonnement comme GPT o3 et Claude 4. Une étude récente de chercheurs d'Apple conduit à relativiser ces progrès, en montrant que même les modèles les plus récents échouent à généraliser de manière fiable au-delà des données de leur entraînement : ils interpolent, mais n’extrapolent pas.
L’analyse repose sur un ensemble de tâches classiques en intelligence artificielle symbolique, dont le jeu de la tour de Hanoï – un casse-tête mathématique inventé en 1883 par le mathématicien français Édouard Lucas – , la manipulation d’arbres binaires et des algorithmes élémentaires de recherche. Ces problèmes, bien maîtrisés depuis les années 1980 dans les systèmes algorithmiques et dans certains systèmes d’IA, posent toujours des difficultés aux LLM, même lorsqu’ils sont assistés par des traces de raisonnement.
Le jeu de la Tour de Hanoï • source : Wikipedia
Un écart persistant entre la forme et le fond
Les expérimentations portent sur plusieurs modèles à la pointe, incluant ceux dotés de modules de raisonnement à l'inférence. Ces modèles produisent des chaînes de pensée souvent grammaticalement correctes, voire convaincantes en apparence. Mais ces traces ne sont pas toujours corrélées à la réussite finale. Dans de nombreux cas, le raisonnement semble superficiel, voire incohérent.
Une partie des erreurs est due à une forme d’approximation statistique : les modèles semblent apprendre des schémas probables de raisonnement, sans intégrer en profondeur les règles structurelles des algorithmes sous-jacents. Cette distinction entre le langage du raisonnement et sa fonction réelle constitue une limite méthodologique pour les approches fondées sur la génération de texte comme principal vecteur de résolution.
Des failles révélées sur des tâches élémentaires
Les performances mesurées sur des variantes du jeu de la tour de Hanoï illustrent ces limites : les modèles testés échouent à résoudre de manière fiable des versions à plus de sept disques, bien en deçà de ce qui est attendu d’un élève en première année d’informatique. Même lorsqu’on leur fournit une solution explicite à suivre étape par étape, les modèles échouent à l’exécuter correctement.
Ce constat met en cause la capacité des LLM à simuler des raisonnements symboliques robustes. Si l’on attend d’un système qu’il allie la souplesse du langage à la rigueur de l’exécution algorithmique, cette dissociation constitue un obstacle de fond. La difficulté n’est pas uniquement de résoudre un problème, mais de le faire de manière systématique et fiable.
Une généralisation restreinte au cadre de l’entraînement
Les erreurs observées renvoient à une problématique plus large de généralisation hors distribution. Les modèles testés fonctionnent relativement bien sur des variantes connues ou sur des entrées proches de leur corpus d’entraînement, mais leur performance se dégrade dès qu’ils sont confrontés à des entrées plus complexes ou inhabituelles.
Cela confirme une hypothèse ancienne en apprentissage machine : les réseaux neuronaux tendent à interpoler dans l’espace des exemples vus, mais n’extrapolent pas de manière rigoureuse au-delà. Pour des tâches où la solution repose sur un algorithme déterministe, cette approche par approximation statistique montre ses limites.
Une fiabilité insuffisante pour des applications critiques
Les résultats de l’étude soulignent que même les architectures les plus avancées restent vulnérables à des erreurs fondamentales. Ces fragilités posent la question de leur intégration dans des contextes sensibles. Dans les applications industrielles ou scientifiques, une fiabilité partielle ou aléatoire peut invalider l’ensemble d’un processus décisionnel.
Par ailleurs, certaines tâches comme la gestion d’une base de données, le repliement de protéines ou la résolution de preuves mathématiques reposent sur des outils spécialisés bien plus performants que les LLMs actuels. Ces systèmes fondés sur des algorithmes explicites surpassent encore nettement les performances des modèles génératifs.
L’AGI à reconfigurer
Pour les chercheurs d’Apple, ces constats ne remettent pas en cause l’intérêt de l’intelligence artificielle, mais ils plaident pour une redéfinition des objectifs. L’ambition ne devrait pas être de simuler le raisonnement humain, mais de combiner la puissance de calcul des machines avec des capacités de raisonnement explicite, symbolique et contrôlable. Les LLM continueront à offrir des usages utiles – rédaction et synthèse de textes, génération de code, assistance… Mais ils ne constituent pas, à ce jour du moins, une voie directe vers une intelligence artificielle générale.
Pour en savoir plus :
- Parshin Shojaee et al., The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, Apple, 2025
- Iman Mirzadeh et al., GSM-Symbolic: Understanding the Limitations of
- Mathematical Reasoning in Large Language Models, Apple, 2024
- Gary Marcus