Alors que les modèles de langage sont de plus en plus intégrés aux outils du quotidien, leur évaluation repose encore largement sur des tests académiques standardisés. Des benchmarks comme MMLU, HumanEval ou GSM8K mesurent la capacité des IA à répondre à des QCM, résoudre des problèmes mathématiques ou écrire du code Python. Ces métriques ont servi de base à la compétition entre modèles ces dernières années, mais elles sont de plus en plus critiquées pour leur éloignement des usages concrets.
Une équipe de chercheurs de l’université de Sydney propose une nouvelle approche. Dans un article publié ce mois-ci, ils identifient six grandes capacités mobilisées dans les interactions humaines avec l’IA, à partir d’une analyse croisée de données d’usage sur Claude.ai (plus de quatre millions de requêtes) et d’une enquête menée auprès de 18 000 salariés dans onze secteurs. Leurs travaux montrent que les benchmarks actuels ne couvrent qu’une partie des compétences réellement sollicitées, laissant des pans entiers de l’activité humaine hors champ.
Six capacités, pas seulement techniques
Les chercheurs distinguent six catégories de tâches fréquemment confiées à des modèles de langage. La première, l’assistance technique, regroupe les cas de débogage, d’aide au codage ou de rédaction de scripts. Elle est la plus fréquente, présente dans 65 % des requêtes analysées. Vient ensuite l’évaluation ou la révision de contenu (59 %), qui inclut la relecture, l’amélioration de style ou la vérification de documents.
Les quatre autres capacités sont la génération de contenu (26 %), la recherche d’information (17 %), la structuration de données (4 %) — par exemple convertir une bibliographie ou reformater un tableau — et enfin le résumé, également à 17 %. Ces capacités se recoupent souvent : une même requête peut impliquer à la fois de structurer, générer et relire un texte.
L’humain au cœur des critères
Pour évaluer la couverture effective de ces capacités par les benchmarks existants, les auteurs ont défini cinq critères centrés sur l’expérience utilisateur : la cohérence (respect du contexte conversationnel), la clarté, la pertinence, l’exactitude et l’efficacité. Chaque benchmark est passé au crible selon ces cinq dimensions.
Résultat : la plupart des benchmarks se concentrent sur la précision, souvent mesurée à partir de réponses uniques à des questions fermées. Peu d’entre eux évaluent la clarté ou le gain de temps permis pour l’utilisateur. Le critère d’efficacité — combien d’étapes ou de reformulations sont nécessaires pour obtenir une réponse satisfaisante — est rarement pris en compte. Et les évaluations automatiques ont tendance à marginaliser les interactions itératives, pourtant omniprésentes dans la pratique.
Des tâches non couvertes, des biais persistants
Parmi les six capacités identifiées, deux ne sont quasiment pas mesurées par les benchmarks en usage : la relecture/amélioration (Reviewing Work) et la structuration de données (Data Structuring). Ces fonctions sont pourtant massivement utilisées dans des contextes professionnels : rédiger un e-mail, reformuler un passage, convertir une liste bibliographique… L’absence de métriques dédiées empêche d’évaluer ces performances de manière systématique.
De plus, les benchmarks actuels privilégient les cas d’usage des développeurs – code, maths, logique formelle – alors que 88 % des utilisateurs professionnels d’IA sont non techniques, notamment dans l’éducation, la santé, la communication ou la gestion. Cette surreprésentation induit un biais de conception, au détriment de l’évaluation des capacités linguistiques ou rédactionnelles plus nuancées.
Des benchmarks peu transparents
Le papier critique également la faible transparence des procédures d’évaluation. Les scores publiés par les grands laboratoires (OpenAI, Google, Anthropic…) reposent souvent sur des jeux de données fermés, sans précisions sur le protocole exact, le nombre d’essais ou la sélection des réponses. Les auteurs notent que certains modèles peuvent être testés plusieurs fois en amont de leur publication, faussant les comparaisons.
Même les plateformes plus ouvertes comme Chatbot Arena présentent des limites : l’échantillon de prompts n’est pas public, les préférences des évaluateurs ne sont pas décrites, et la méthode de notation comparative (« quel modèle est le meilleur ? ») n’indique pas si les deux modèles sont bons, moyens ou mauvais. Cette opacité complique la lecture des classements.
Une IA utile plutôt qu’intelligente
Le décalage entre les performances mesurées et l’utilité perçue se manifeste dans la manière dont les modèles sont intégrés aux flux de travail. Les auteurs soulignent que, dans les faits, l’IA agit souvent comme un collaborateur : elle reformule, corrige, synthétise, complète. Elle est jugée sur sa capacité à s’adapter, à être compréhensible, à réduire l’effort cognitif, plus que sur sa précision brute.
Ce glissement rend inadaptés les tests pensés comme des examens scolaires. Ce n’est pas tant l’intelligence abstraite des modèles qui importe que leur valeur pratique pour des tâches humaines. En continuant à privilégier des benchmarks conçus pour mesurer des performances techniques décontextualisées, les concepteurs de modèles risquent de surévaluer leurs avancées.
Vers de nouveaux standards
Les auteurs plaident pour la création de benchmarks alignés avec les six capacités identifiées, intégrant systématiquement les critères de cohérence, clarté, pertinence, efficacité et exactitude. Chaque tâche devrait permettre une interaction multi-tours, inclure une part d’évaluation humaine et s’ancrer dans des cas d’usage réels.
Plutôt que de chercher à tout mesurer par des scores automatiques, ils recommandent de réintroduire des jugements experts, à l’image du peer review dans l’édition scientifique. Le but n’est plus de classer les modèles, mais d’en évaluer la valeur ajoutée dans les usages qui comptent le plus pour les utilisateurs.
Pour en savoir plus :
- Justin K Miller et Wenjia Tang, Evaluating LLM Metrics Through Real-World Capabilities, Arxiv, 2025