Réinventer l’apprentissage par renforcement

Une nouvelle vision de l’apprentissage par renforcement • Qant, M. de R. avec Midjourney

Une nouvelle méthode d'entraînement permet à un modèle open source de rivaliser avec les leaders propriétaires dans des tâches complexes de collaboration homme-machine.

Des chercheurs du laboratoire Fair de Meta et de l’université de Berkeley ont développé une nouvelle méthode d’apprentissage par renforcement, baptisée Sweet-RL, qui améliore significativement les performances des agents conversationnels, fondés sur les grands modèles de langage (LLM), dans des tâches collaboratives complexes. À travers un nouveau benchmark baptisé ColBench, ils montrent qu’un “petit” modèle open source comme Llama-3.1-8B peut égaler, voire surpasser, des modèles propriétaires bien plus importants, comme GPT-4o, dans des scénarios réalistes de programmation backend et de conception frontend.

ColBench : un nouveau terrain d’évaluation pour les agents

Le benchmark ColBench repose sur deux types de tâches réalistes : l’écriture collaborative de fonctions Python (programmation backend) et la conception de pages web HTML (design frontend). Ces tâches nécessitent des échanges sur plusieurs tours entre l’agent LLM et un "simulateur humain", lui-même un LLM doté d’un artefact de référence (code ou page web cible). Contrairement aux benchmarks existants, ColBench propose plus de 10 000 tâches diverses, suffisamment complexes pour tester les capacités de raisonnement, mais assez légères à mettre en place, grâce à l’automatisation de l’évaluation fonctionnelle des résultats.

Chaque tâche backend évalue l’agent sur 10 tests unitaires, tandis que la réussite en frontend est mesurée par la similarité de l’affichage final avec la référence (calculée par des embeddings Clip). Dans les deux cas, les interactions sont limitées à dix “tours” – dix interactions avec l’utilisateur humain –, avec une seule opportunité de soumettre une solution finale. Le cadre est ainsi défini comme un processus décisionnel partiellement observable, à horizon fini.

L'enjeu de l'attribution du crédit dans les échanges multi-tours

Les méthodes classiques d’apprentissage par renforcement à partir de feedback humain (RLHF), comme PPO ou DPO, peinent à attribuer efficacement les récompenses aux différentes actions dans les tâches où les interactions se multiplient – c’est la raison pour laquelle il convient d’interrompre les trop longs fils de dialogue avec un chatbot. Ces approches, en se focalisant sur la trajectoire complète, souffrent d’une variance élevée et d’une mauvaise complexité d’échantillonnage.

D’autres tentatives, fondées sur l’apprentissage de fonctions de valeur, manquent de généralisation sur les données limitées et dévient du pré-entraînement des LLM par prédiction de tokens.

Aperçu de la procédure de formation de Sweet-RL • Source : Yifei Zhou et al.

Sweet-RL contourne ces limitations en introduisant un critique asymétrique, c’est-à-dire un modèle auxiliaire qui accède à des informations réservées à l’entraînement, comme les solutions de référence. Ce critique, distinct de l’acteur, apprend une fonction d’avantage à chaque tour, optimisée directement par une fonction de type Bradley-Terry à partir de paires de trajectoires préférées ou rejetées. Ce signal d’apprentissage plus granulaire permet une attribution plus fine du crédit au fil des échanges.

Une progression nette par rapport aux autres méthodes

Les expériences montrent que Sweet-RL améliore de manière significative les performances de Llama-3.1-8B. Sur les tâches de programmation backend, le taux de réussite passe de 34,4 % avec Multi-Turn DPO à 40,4 % avec Sweet-RL. En frontend, le taux de victoire contre GPT-4o augmente de 42,8 % à 48,2 %. Le modèle open source entraîné avec Sweet-RL surpasse ainsi des modèles propriétaires bien plus volumineux comme o1-mini, et s’aligne sur les performances de GPT-4o.

Les résultats restent robustes avec des modèles plus grands. En remplaçant Llama-3.1-8B par Llama-3.1-70B, Sweet-RL continue d’augmenter la performance, atteignant 45,6 % de succès en backend, contre 41,8 % avec DPO et 31,9 % avec le simple Rejection Fine-Tuning.

Sweet-RL parvient aussi à exploiter efficacement des données générées par des modèles plus faibles, une capacité précieuse dans les contextes de fine-tuning à ressources limitées.

Validation expérimentale et sensibilité au volume de données

Une série d’expériences d’ablation confirme les choix d’architecture de Sweet-RL. L’utilisation d’une tête de régression ou l’absence d’information de référence dégrade notablement les performances. Par ailleurs, une mauvaise normalisation du score d’avantage entraîne des réponses de plus en plus courtes, illustrant la sensibilité des modèles à la formulation du signal de récompense.

Le système Sweet-RL bénéficie d’un effet de seuil : bien qu’il nécessite davantage de données au départ pour entraîner un critique fiable, il dépasse rapidement ses concurrents en efficacité à mesure que le nombre d’échantillons augmente. À partir de 9 000 échantillons, son avantage devient marqué et constant.

Vers une nouvelle norme pour les agents collaboratifs

Ce travail amorce une nouvelle génération de méthodes de RL adaptées aux agents d’IA dans des tâches interactives. Contrairement aux approches centrées sur la génération unique de texte, Sweet-RL prend en compte la dynamique des échanges homme-machine. Il démontre l’intérêt d’exploiter des informations disponibles uniquement à l’entraînement pour guider l’apprentissage et améliorer la stratégie de dialogue des agents.

Ce cadre ouvre des perspectives pour une gamme étendue d’applications où l’interaction homme-agent est centrale : assistants personnels, codéveloppement de logiciels, interfaces intelligentes de conception visuelle... Il souligne également les limites des approches purement end-to-end et l’importance d’une séparation des rôles entre acteur et critique, même dans les modèles fondés sur le langage.

Pour en savoir plus :

L’essentiel