OpenAI propose une nouvelle manière d’optimiser ses modèles

9 décembre 24

Après la sortie du nouveau modèle o1, OpenAI propose d’utiliser l’apprentissage par renforcement pour “fine-tuner” ses modèles.

OpenAI a présenté le Reinforcement Fine-Tuning (RFT) vendredi 5 au soir, lors du deuxième jour des "12 Days of OpenAI", une conférence de presse virtuelle par épisodes qui a début la semaine dernière. Cette nouvelle technique permet de créer des modèles adaptés à des tâches complexes et spécifiques. Le RFT se distingue du fine-tuning supervisé en améliorant les capacités de raisonnement des modèles par des itérations successives. Il ne nécessite, d’après OpenAI, que d’un jeu de données et d’un système d'évaluation pour des tâches spécifiques.

La technologie, qui sera accessible au public début 2025, trouve déjà des applications dans la recherche médicale au Berkeley Lab pour l'étude des maladies génétiques rares, ainsi que dans le secteur juridique où Thomson Reuters l'utilise pour son assistant CoCounsel AI. OpenAI ouvre ainsi aux développeurs externes les méthodes d'apprentissage par renforcement utilisées pour ses modèles GPT-4o et la série o1, tout en proposant actuellement un accès alpha via son programme de recherche sur le RFT.

Du renforcement partout

En avril 2023, quand il a pris la tête de toutes les activités de Google en matière d’intelligence artificielle, Demis Hassabis avait annoncé que la nouvelle Google Deepmind allait faire converger les techniques d’entraînement des transformers avec les techniques d’apprentissage par renforcement qui avait la force de modèles comme AlphaGo et AlphaFold – et qui, depuis, lui ont valu un prix Nobel. Après la généralisation du RLHF (reinforcement learning with human feed-back),on voit désormais émerger une nouvelle forme tournée vers les agents d’IA, l’outcome-based reinforcement learning.

Dès le mois de janvier dernier, des chercheurs de Bytedance avaient présenté le concept de Reinforced Fine-Tuning, où l’entraînement du modèle commence avec le fine-tuning supervisé et continue avec un apprentissage online par renforcement.

Il ne restait à OpenAI qu’à démocratiser le concept.

Plus sur IA

Faire travailler ensemble l’IA et l’humain dans la santé
IA
Faire travailler ensemble l’IA et l’humain dans la santé

Des chercheuses australiennes comparent les décisions des humains et des modèles d’IA générative dans le secteur complexe des politiques de santé. Les deux semblent promis à une coopération complémentaire.
Entre protection des données et droit d’auteur, les modèles d’IA pris dans l’étau
IA
Entre protection des données et droit d’auteur, les modèles d’IA pris dans l’étau

OpenAI et Anthropic font face à deux procédures judiciaires distinctes aux États-Unis, l'une sur la confidentialité des utilisateurs de ChatGPT, l'autre sur l'utilisation non autorisée de données Reddit à des fins d'entraînement de modèles d'intelligence artificielle. Un conflit potentiel entre droit des données et copyright se dessine.
Un concurrent canadien pour Mistral
IA
Un concurrent canadien pour Mistral

La start-up canadienne Cohere vise une valorisation de plus de 5,5 milliards de dollars. Elle deviendrait alors, substantiellement, l’égale de Mistral, avec une spécialisation plus marquée vers les grandes entreprises.
Make China Great Again
IA
Make China Great Again

La Chine est en train de rattraper et peut-être de dépasser les États-Unis en matière d’IA. Or, les nouvelles politiques américaines en matière de commerce, d'immigration, et de recherche de son administration, accélèrent ce changement. Le piège de Thucydide, qui a fait entrer en guerre Sparte, puissance dominante, contre Athènes, puissance émergente, se referme sur les deux rives du Pacifique.

L’essentiel

IA
L’IA inquiète plutôt les anglophones

6 juin 25
Un sondage mené par Ipsos Mori dans 30 pays révèle que les populations anglophones, notamment au Royaume-Uni, aux États-Unis, au Canada et en Australie, se montrent nettement plus inquiètes face à l’essor de l’intelligence artificielle que celles des grandes économies européennes, où la méfiance est moindre. Cette fracture semble liée au niveau de confiance dans la capacité des gouvernements à réguler la technologie, confiance particulièrement faible dans les pays anglo-saxons. Le sondage montre également que la perception des effets de l’IA sur l’emploi varie fortement selon les régions, tout comme l’acceptation de l’IA dans la création de contenus, majoritairement rejetée mais perçue comme inévitable. En savoir plus…
IA
AMD veut contourner Nvidia et Cuda avec Brium

6 juin 25
AMD a annoncé le rachat de la start-up Brium, spécialisée dans l’optimisation logicielle pour l’inférence de modèles d’IA sur différents types de matériel. Brium développe des outils permettant aux logiciels conçus pour les GPU Nvidia d’être adaptés à d’autres architectures, notamment les GPU Instinct d’AMD. Ce rachat s’inscrit dans la stratégie d’AMD visant à bâtir un écosystème IA ouvert, après les acquisitions de Silo AI (lire Qant du 12 juillet 2024), Nod.AI et Mipsology depuis 2023. Les modalités financières de l’opération n’ont pas été divulguées. En savoir plus…
IA
Un selfie pour faire ses courses

6 juin 25
Samsung commence à déployer, sur ses smartphones Galaxy S22 à S25, une fonctionnalité qui utilise des selfies pour générer des publicités de mode personnalisées directement sur l’écran de verrouillage. Développé avec la société Glance et alimenté par les modèles d’IA de Google (Gemini et Imagen), ce service propose des images de l’utilisateur habillé virtuellement selon des tendances locales ou issues des réseaux sociaux, avec possibilité d’achat immédiat. Glance conserve les données biométriques pendant un an et affirme ne pas partager les images sans consentement. En savoir plus…
IA
Vol au-dessus d’une loi de finances

6 juin 25
La massive loi-cadre budgétaire (“Big Beautiful Bill” ou BBB) en discussion au sénat américain cache, dans ses mille pages, des dispositions encore plus menaçantes que l’aggravation des déficits. Une taxe de 3,5 % devrait ainsi être prélevée sur les remises à l’étranger des non-citoyens américains. Elle introduirait, de facto, une première forme de contrôle des capitaux face à l’affaiblissement du dollar provoqué par les politiques de Trump. Cela pèserait lourdement sur les entreprises étrangères implantées aux États-Unis et inviterait certainement des représailles. On connaît déjà, par ailleurs, l’interdiction faite aux États américains de réglementer l’IA (lire Qant du 23 mai) et la “taxe impériale”, qui prévoit de donner au secrétaire du Trésor le pouvoir d’imposer les investisseurs étrangers aux États-Unis, de 5 % à 20 %, selon “l’équité” de leur système fiscal. En savoir plus…
IA
27 milliards en vaisselle cassée

6 juin 25
La dispute devenue très publique entre Elon Musk et Donald Trump a déjà réduit le patrimoine de l’entrepreneur de 27 milliards de dollars. Latente depuis mars, elle a explosé cette nuit sur les réseaux sociaux : en cause, la nomination bloquée du poulain de Musk à la tête de la Nasa, Jared Isaacman, et la suppression des avantages fiscaux pour les véhicules électriques, comme Tesla. Les “tech bros”, comme JD Vance, font pour l’instant bloc derrière Trump. Mais deux raisons plus profondes semblent destinées à éloigner les entrepreneurs du mouvement Maga : le protectionnisme et la loi de finances, en discussion sous le nom trumpien de “Big Beautiful Bill”, qui s’opposent toutes deux aux intérêts de la tech et de l’économie américaine. En savoir plus…

Du renforcement partout

L’essentiel

L’IA inquiète plutôt les anglophones

AMD veut contourner Nvidia et Cuda avec Brium

Un selfie pour faire ses courses

Vol au-dessus d’une loi de finances

27 milliards en vaisselle cassée