- Deux des nouvelles versions de la gamme de modèles open source Qwen 2.5 d’Alibaba, Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M, prennent en charge des fenêtres de contexte qui atteignent 1 million de tokens.
- Jusqu’à présent, seul Gemini se targuait de pouvoir accepter un contexte aussi long (jusqu’à 2 millions de tokens), quoique des extensions existent pour porter à ce niveau la fenêtre d’attention de Llama 3 (Gradient) et Mistral 7B (InfLLLm).
- Les nouveaux Qwen utilisent une technique appelée attention sparse, qui sélectionne uniquement les parties les plus pertinentes du contexte pour optimiser le traitement des informations. Cette approche réduit la charge de calcul, et permet de traiter des données longues jusqu’à sept fois plus rapidement qu’avec des méthodes classiques.
- Alibaba a également présenté Qwen2.5-VL, qui combine capacités de compréhension multimodale et interactions avec des applications sur PC et mobile.
- Les tests présentés montrent que Qwen2.5-VL surpasse des modèles comme GPT-4o ou Claude 3.5 Sonnet sur des tâches comme l’analyse de vidéos, la reconnaissance d’objets et la gestion de documents complexes.
- EN FILIGRANE : Alibaba a été le premier, et avant DeepSeek le seul, à présenter des modèles chain-of-thought open source susceptibles de rivaliser avec OpenAI o1, dès novembre 2024 : Qwen With Questions (QwQ) et Marco-o1. Le groupe propose une gamme complète de modèles, principalement open source, mais avec une licence restreinte aux entreprises de moins de 100 millions d’utilisateurs actifs mensuels (contre 700 millions pour Meta). Trois modèles payants et propriétaires sont hébergés sur Alibaba Cloud.
- À SURVEILLER : La séquence chinoise. Depuis l’investiture de Donald Trump, Pékin a tiré trois coups de semonce : la fermeture de TikTok pendant 24h, les prouesses économiques DeepSeek R1 et maintenant la démonstration de puissance IA d’Alibaba. L’administration Trump semble encore en train de chercher la réponse.
Alibaba monte à l’assaut

Alibaba a dévoilé une batterie de nouveaux modèles, qui complètent la série open-source Qwen et se veulent meilleurs que DeepSeek et Llama.