OpenAI propose une nouvelle manière d’optimiser ses modèles

Capture d’écran 2024-12-09 163653

Après la sortie du nouveau modèle o1, OpenAI propose d’utiliser l’apprentissage par renforcement pour “fine-tuner” ses modèles.

OpenAI a présenté le Reinforcement Fine-Tuning (RFT) vendredi 5 au soir, lors du deuxième jour des "12 Days of OpenAI", une conférence de presse virtuelle par épisodes qui a début la semaine dernière. Cette nouvelle technique permet de créer des modèles adaptés à des tâches complexes et spécifiques. Le RFT se distingue du fine-tuning supervisé en améliorant les capacités de raisonnement des modèles par des itérations successives. Il ne nécessite, d’après OpenAI, que d’un jeu de données et d’un système d'évaluation pour des tâches spécifiques.

Le calendrier de l’Avent d’OpenAI, deuxième épisode

La technologie, qui sera accessible au public début 2025, trouve déjà des applications dans la recherche médicale au Berkeley Lab pour l'étude des maladies génétiques rares, ainsi que dans le secteur juridique où Thomson Reuters l'utilise pour son assistant CoCounsel AI. OpenAI ouvre ainsi aux développeurs externes les méthodes d'apprentissage par renforcement utilisées pour ses modèles GPT-4o et la série o1, tout en proposant actuellement un accès alpha via son programme de recherche sur le RFT.

Du renforcement partout

En avril 2023, quand il a pris la tête de toutes les activités de Google en matière d’intelligence artificielle, Demis Hassabis avait annoncé que la nouvelle Google Deepmind allait faire converger les techniques d’entraînement des transformers avec les techniques d’apprentissage par renforcement qui avait la force de modèles comme AlphaGo et AlphaFold – et qui, depuis, lui ont valu un prix Nobel. Après la généralisation du RLHF (reinforcement learning with human feed-back),on voit désormais émerger une nouvelle forme tournée vers les agents d’IA, l’outcome-based reinforcement learning.

Dès le mois de janvier dernier, des chercheurs de Bytedance avaient présenté le concept de Reinforced Fine-Tuning, où l’entraînement du modèle commence avec le fine-tuning supervisé et continue avec un apprentissage online par renforcement.

Il ne restait à OpenAI qu’à démocratiser le concept.

L’essentiel