Llama 3 grimpe vers les sommets

“Le Llama se voit déjà plus grand” (Qant, M. de R. avec Midjourney)

Les premiers retours sur les deux modèles publiés par Meta montrent que Llama 3 a de quoi rivaliser avec ses concurrents. En attendant de voir si le troisième saura atteindre les sommets.


Comparaison des deux premiers LLM de Llama 3 avec ses concurrents (Source : Meta)

Comparaison des deux premiers LLM de Llama 3 avec ses concurrents (Source : Meta)

Il n’y a pas que les paramètres dans un LLM. Le jeu de données d’entraînement pour Llama 3 atteint les 15 000 milliards de tokens, des unités de sens qui correspondent à un mot ou une partie de mot, d’image, de code, de son… Cette taille considérable permet aux deux modèles présentés la semaine dernière de battre leurs concurrents directs sur de nombreux tests (cf. tableau ci-dessus). Le troisième modèle, qui devrait comprendre 400 milliards de paramètres, est toujours en cours d'entraînement mais il obtient déjà des résultats proches de GPT-4 Turbo, qui régnait en maître jusqu’à il y a quelques semaines (lire Qant du 15 avril).

Il n’y a pas que les paramètres dans un LLM. Le jeu de données d’entraînement pour Llama 3 atteint les 15 000 milliards de tokens, des unités de sens qui correspondent à un mot ou une partie de mot, d’image, de code, de son… Cette taille considérable permet aux deux modèles présentés la semaine dernière de battre leurs concurrents directs sur de nombreux tests (cf. tableau ci-dessus). Le troisième modèle, qui devrait comprendre 400 milliards de paramètres, est toujours en cours d'entraînement mais il obtient déjà des résultats proches de GPT-4 Turbo, qui régnait en maître jusqu’à il y a quelques semaines (lire Qant du 15 avril).

Des modèles sous-entraînés jusqu’à présent

Meta fait remarquer que, malgré cet entraînement très important – 75 fois plus que ce que l’on recommande pour un modèle de 8 milliards de paramètres –, aucun signe de convergence n’a été remarqué. Au-delà du point de convergence, des itérations supplémentaires du processus d'entraînement n'améliorent plus significativement les performances du modèle. On peut considérer que c'est le point où le modèle a appris autant qu'il le peut à partir des données disponibles et que des itérations d'entraînement supplémentaires ne produisent pas de bénéfices substantiels.

Le chercheur Andrej Karpathy, cofondateur d’OpenAI et ancien directeur de l’IA chez Tesla, en déduit que les modèles actuels sont sous-entraînés “d’un facteur 100 à 1000, au moins”. Il faut dire que l’entraînement d’un modèle est la partie la plus coûteuse du développement. Celui de Llama 3 a mobilisé 16 000 GPU, avec un débit (“throughput”) observé de 400 téraflops.

Données synthétiques

En outre, les données sont de plus en plus difficiles à obtenir. On considère que l’ensemble des données d’Internet a été désormais utilisé. Qui plus est, les inconnues sur le droit d’auteur pèsent de plus en plus lourd sur OpenAI et les créateurs de modèles de diffusion comme Stability AI (lire Qant du 6 décembre 2023 et du 8 février 2023).

Meta contourne le problème avec des données synthétiques, générées par l’IA. Si les bons résultats de Llama 3 se confirment avec son grand modèle de 400 milliards de paramètres, attendu pour l’été, la pratique pourrait se généraliser, considérant l’appétit des nouveaux modèles pour les données.

Le français à la portion congrue

Llama 3 a quelques points noirs. Le plus important se trouve dans la taille de fenêtre de contexte : 8 Ko, contre 128 Ko pour GPT-4 et 1 million pour Gemini 1.5. Les puristes se plaignent que la licence open source ne s’applique plus au-delà de 700 millions d’utilisateurs et que le modèle ne puisse être utilisé pour en entraîner d’autres.

Les esprits chagrins, pour leur part, pourront observer que l’anglais correspond à 95 % du jeu de données d’entraînement ; 30 langues se répartissent les 5 % restants. Le français est donc réduit à la portion congrue – mais à la vérité, ces données sont rarement disponibles et il se pourrait bien que Llama 3 représente, au contraire, un progrès pour les langues autres que l’anglais.

Accueil triomphal

La communauté des développeurs ne s’est pas arrêtée à ces détails. Le classement des LLM de l'université de Berkeley LMSYS (Large Model Systems Organization, lire Qant du 15 avril), qui se base sur les votes de la communauté, place déjà Llama 3 70B devant Command R+ de Cohere pour les entreprises (lire Qant du 5 avril), Claude 3 Haiku ou encore Mistral Large.

Classement des LLMs selon la Chatbot Arena de LMSYS (Source : LMSYS)

Classement des LLMs selon la Chatbot Arena de LMSYS (Source : LMSYS)

Llama 3 devient le modèle de fondation de l'assistant Meta AI (lire Qant du 19 avril), désormais intégré dans Instagram, WhatsApp et Facebook. Meta AI, notamment capable de résumer des liens, est désormais disponible dans 13 nouveaux pays dont l'Australie et le Canada, mais pas l'Union européenne (où l’on peut cependant bénéficier d’un rival, You.com, sur Whatsapp, et de Copilot dans Skype). Meta réfléchit à la possible intégration de la publicité dans son offre d'IA.

En attendant le géant

A l’heure actuelle, deux seuls modèles rivalisent avec GPT-4 : Claude 3 d’Anthropic et Gemini 1.5. Mais Llama 3 400B fait preuve, pendant son entraînement, de résultats préliminaires qui le rapprochent des ces trois grands. Sur le test de compréhension MMLU (Massive Multitask Language Understanding), par exemple, GPT-4 Turbo atteint un résultat de 86,5 et Llama 3 400B, déjà 84,8. A sa sortie, prévue cet été, Llama 3 portera donc les modèles open source au même niveau que les modèles les plus avancés.

A moins que GPT-5 ne vienne changer la donne d’ici là.

Pour en savoir plus :

L’essentiel