Côté performances, il n’y a pas de quoi fouetter un chat.
GPT-4o atteint certes un nouveau sommet dans le test de “culture générale” le plus courant pour les modèles d’IA, MMLU : 88,7% de bonnes réponses contre 86,5 % pour GPT-4 Turbo. Mais cela reste mineur : de quoi donner apparemment raison à ceux qui, comme le chercheur Gary Marcus, soutiennent que l’architecture GPT a atteint un plateau avec GPT-4 et que le marché va s’ouvrir au fur et à mesure que les modèles de ce niveau se multiplient. “OpenAI s’est probablement tournée vers de nouvelles fonctionnalités précisément parce qu’elle ne réussit pas [à poursuivre le long de] « l’amélioration exponentielle »”, commentait-il hier soir après la présentation de GPT-4o. Mais il n’y pas que le moteur dans une voiture et l’optimisation de la multimodalité de GPT-4 offre de puissantes perspectives – sans compter que le dernier mot n’a pas été dit sur les modèles eux-mêmes..
Non seulement la qualité de la synthèse vocale de GPT-4o éclipse ElevenLabs, qui faisait jusqu’ici la course en tête, mais la suppression des temps de latence permet des conversations fluides et une traduction réellement simultanée. Le passage d’une recherche sur Internet écrite (comme Google) à une recherche générative sur un prompt verbal devient parfaitement concevable. Elle prélude à un monde sans clavier, où l’homme parle à la machine.
Et celle-ci lui répond.
La puissance de l’instant
Le nouveau modèle GPT-4o a été entraîné aussi bien avec des textes que des images et de l’audio : un réseau neuronal unique reçoit les invites et génère la réponse. Cela permet de supprimer les temps morts du mode vocal de ChatGPT. Il lui fallait jusqu’à présent de 3 à 5 secondes pour transcrire un son en texte, générer un nouveau texte en réponse, et synthétiser un son à partir de ce texte.
La fin de cette latence permet de simuler des émotions dans le dialogue et, en général, une grande avancée dans les capacités de conversation. Sa brève apparition sous le nom de GPT2 dans la Chatbot Arena de LMSYS ne présentait que des échanges basés sur le code informatique et le texte libre. Pourtant, il s’est immédiatement imposé face à d’autres modèles aux performances comparables.
Source : Sam Altman (X-Twitter)
En quatorze mois, passer le test de Turing est devenu banal et la multimodalité s’est imposée comme une nécessité incontournable dans le développement des IA. Après le texte, le code, le son et les images, l’animation 3D et la vidéo ne semblent pas destinées à résister longtemps à cette grande vague qui réduit toute l’expression humaine à des jetons (tokens).
BabelGPT
Le nouveau ChatGPT maîtrise 50 langues supplémentaires. L’optimisation de la tokenisation permet des gains de vitesse considérables : 10% seulement en anglais et en français, mais 400 % à 500 % dans des langues indiennes comme le tamoul ou le gujarati.
Il ne s’agit pas tant de tomber amoureux d’une IA anthropomorphe mais désincarnée, comme dans le film Her, ou de s’en défendre, comme dans 2001, L’Odyssée de l’espace. L’extension des capacités multimodales à d’autres sens humains, comme le toucher ou l’odorat, ou au-delà – vers l’ultraviolet ou l’infrarouge, par exemple – ne prend son sens qu’avec l’IA embarquée ou dans la recherche scientifique. Dans ces deux domaines, Google garde son avance, grâce à Waymo dans les voitures autonomes et aux modèles de Deepmind, comme Alphafold.
Parler sans penser
Il s’agit plutôt de penser un monde où tous les signes d’humanité peuvent être artificiels. Ce que Sam Altman a commencé à le faire, en lançant une start-up qui délivre des certificats d’humanité sur une blockchain, Worldcoin (lire, par exemple, Qant du 22 avril). Passés les inévitables problèmes de mise à l’échelle, tous les utilisateurs de ChatGPT seront bientôt convaincus que l’on peut discuter avec une IA comme avec un autre humain, voire raisonner avec elle comme avec son prof de maths. Si un accord est effectivement passé avec Apple, leur nombre se multipliera rapidement, alors qu’il stagne à environ 100 millions par mois aujourd’hui.
Le raisonnement, cependant, entendu comme la capacité à dériver de nouvelles connaissances à partir de celles existantes en suivant des règles logiques, est un point où l'intelligence humaine s’écarte fortement de l’inférence de l’IA. Ceci soulève un débat sur l'efficacité des approches actuelles utilisées dans les modèles de langage, où l'intégration des données humaines semble insuffisante pour enseigner un raisonnement comparable à celui des humains. L’an dernier, Yann Le Cun a présenté chez Meta I-Jepa, une architecture où le modèle compare les images non pixel par pixel, mais avec un niveau d’abstraction supérieure (lire Qant du 5 juin 2023).
SiriGPT et la recherche au-delà d’Internet
A défaut d’améliorer ses capacités de raisonnement, l’intégration de ChatGPT à des smartphones pourra aider à résoudre le problème de la personnalisation. Bien que certaines techniques permettent déjà de moduler le comportement des chatbots, elles restent insuffisantes pour une personnalisation poussée. Non seulement celle-ci requiert une puissance de calcul supplémentaire, mais elle est gourmande en données personnelles, le talon d’Achille d’OpenAI.
Toutefois, un encore hypothétique “SiriGPT” opéré par Apple aura nécessairement accès aux données conservées dans le téléphone. Il sera donc aisément personnalisable, constamment connecté et nécessairement doté de la capacité à interagir avec les apps. Il s’agira, autrement dit, du premier véritable agent d’IA, capable d’aller chercher des informations où qu’elles se trouvent de prendre des décisions en fonction des instructions reçues. C’est là le concept qui pousse Apple vers OpenAI.
Quiconque ait eu affaire, en France, à l’app de la SNCF, peut comprendre l’utilité d’un agent d’IA capable de réserver une place dans un train sans intervention humaine. Et si ChatGPT se souvient de nos préférences de siège, eh bien tant mieux. Or, chaque pays, chaque industrie a son ConnectSNCF.
Dis, GPT, quelle est ma vie ?
Le “quadratic attention bottleneck”, qui voulait que les ressources nécessaires soient élevées au carré à chaque token dans le prompt, semble avoir été résolu par des chercheurs de Google et Meta. Cela a donné ses premiers fruits dans Gemini 1.5 Pro, qui accepte des prompts de 1,5 million de tokens. Et cela ouvre la porte, selon l’expression du CEO de Replit Amjad Masad, à des apps de type "Ask My Life". Destinées à enregistrer et traiter en continu des quantités massives de données personnelles (santé, déplacement, photos, etc), elles pourront offrir un niveau de personnalisation sans précédent.
Cela ferait, en Europe, la fortune des avocats ès RGPD. Mais les premiers déploiements de génération assistée par la recherche (RAG) ont montré que la personnalisation permet d’augmenter la fiabilité des modèles. Et, comme ses prédécesseurs, GPT-4o en a encore bien besoin.
Selon le nouveau ChatGPT, l’éléphant Jumbo a traversé la Manche en 1959. Source : Benjamin Riley
Nobody’s perfect.
Pour en savoir plus :
- OpenAI : Hello, GPT-4o
- Gary Marcus
- OpenAI, Navigating the Challenges and Opportunities of Synthetic Voices
- The Information
- Melanie Mitchell, Debates on the nature of artificial general intelligence, Science, 2024
- Tsendsuren Munkhdalai et al., Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention, Arxiv 2024
- Xuezhe Ma et al., Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length, Arxiv 2024
- Amjad Masad
- Benjamin Riley
- The Information
- Business Insider