Claude vire en tête

Une nouvelle génération de Claude. • Qant, M. de R. avec Midjourney

Anthropic lance deux nouveaux modèles de la série Claude, dont les capacités semblent éclipser tout ce qui a été présenté jusqu’à présent.

  • Anthropic a présenté hier soir Claude Opus 4 et Claude Sonnet 4, deux modèles “hybrides” d’intelligence artificielle, conçus pour résoudre des tâches complexes et améliorer les performances en codage.
  • Opus 4 est le modèle le plus puissant d’Anthropic à ce jour. Il semble également dépasser o3, Gemini 2.5, et tout ce que l’IA a créé jusqu’à présent. Anthropic annonce par exemple un score de 72,5% au benchmark SWE-Bench, là où GPT-4.1 d’OpenAI n’avait atteint que 54,6%.
  • Pour la japonaise Rakuten, Opus 4 a généré du code pendant sept heures d’affilée, sans discontinuer. Il a également pu jouer à un jeu vidéo – Pokemon – pendant 24 heures.
  • Un agent de développement en ligne de commande, Claude Code, est désormais disponible en accès général, accompagné de nouvelles fonctionnalités API facilitant la création d’agents autonomes.
  • Sonnet 4 sera intégré à l’offre gratuite d’Anthropic. Successeur du modèle 3.7, qui était considéré le meilleur modèle de développement informatique jusqu’à présent, il offre une meilleure précision dans les réponses et réduit de 65 % les comportements de contournement, comme la production de code inutile pour satisfaire des tests.
  • Les deux modèles intègrent une mémoire optimisée. Elle leur permet d’alterner entre raisonnement et usage d’outils comme la recherche web, ainsi que de stocker des informations clés pour des tâches longues grâce à des résumés internes appelés « thinking summaries ».
  • EN FILIGRANE : Le Web agentique. Fin 2024, Anthropic a cessé d’investir dans le chatbot et tout misé sur l’entraînement de Claude à effectuer des tâches complexes. De fait, la capacité d’Opus 4 à coder en continu et à suivre rigoureusement ses instructions ouvre de nouvelles perspectives pour le développement d’agents intelligents, et donc pour le nouveau Web.
  • À SURVEILLER : La sécurité. Un “lanceur d’alerte” a été intégré à Opus 4 pour signaler les utilisations les plus dangereuses : conception d’armes biologiques, commerce de faux médicaments… Son lancement a été retardé sur les conseils d’un des red-teamers, le cabinet Apollo Research. Confronté à la menace d’être “éteint”, Claude 4 a tout essayé, et notamment tenté de faire chanter ses interlocuteurs sur la base des données personnelles qu’il avait trouvées en ligne.

L’essentiel