OpenAI a présenté le Reinforcement Fine-Tuning (RFT) vendredi 5 au soir, lors du deuxième jour des "12 Days of OpenAI", une conférence de presse virtuelle par épisodes qui a début la semaine dernière. Cette nouvelle technique permet de créer des modèles adaptés à des tâches complexes et spécifiques. Le RFT se distingue du fine-tuning supervisé en améliorant les capacités de raisonnement des modèles par des itérations successives. Il ne nécessite, d’après OpenAI, que d’un jeu de données et d’un système d'évaluation pour des tâches spécifiques.
La technologie, qui sera accessible au public début 2025, trouve déjà des applications dans la recherche médicale au Berkeley Lab pour l'étude des maladies génétiques rares, ainsi que dans le secteur juridique où Thomson Reuters l'utilise pour son assistant CoCounsel AI. OpenAI ouvre ainsi aux développeurs externes les méthodes d'apprentissage par renforcement utilisées pour ses modèles GPT-4o et la série o1, tout en proposant actuellement un accès alpha via son programme de recherche sur le RFT.
Du renforcement partout
En avril 2023, quand il a pris la tête de toutes les activités de Google en matière d’intelligence artificielle, Demis Hassabis avait annoncé que la nouvelle Google Deepmind allait faire converger les techniques d’entraînement des transformers avec les techniques d’apprentissage par renforcement qui avait la force de modèles comme AlphaGo et AlphaFold – et qui, depuis, lui ont valu un prix Nobel. Après la généralisation du RLHF (reinforcement learning with human feed-back),on voit désormais émerger une nouvelle forme tournée vers les agents d’IA, l’outcome-based reinforcement learning.
Dès le mois de janvier dernier, des chercheurs de Bytedance avaient présenté le concept de Reinforced Fine-Tuning, où l’entraînement du modèle commence avec le fine-tuning supervisé et continue avec un apprentissage online par renforcement.
Il ne restait à OpenAI qu’à démocratiser le concept.