Tous les agents de l’empereur Claude

Un agent pour les orchestrer tous. • Qant, M. de R. avec GPT-4o

Anthropic présente un système qui orchestre de nombreux agents d’IA en faisant appel à plusieurs modèles. Cette architecture multi-agents et multi-LLM permet d’automatiser des tâches de recherche complexes en combinant parallélisme, outils externes et mémoire persistante.

Les limites des agents conversationnels en tâche unique apparaissent rapidement lorsqu’ils sont confrontés à des requêtes longues, ouvertes et multi-facettes. Pour y remédier, Anthropic a développé une architecture multi-agents afin d’exploiter le potentiel des LLM dans un cadre coordonné. Ce système repose sur un agent principal qui planifie, délègue et supervise une constellation d’agents spécialisés, chacun en charge d’un aspect de la tâche. L’ensemble vise à structurer un raisonnement collectif, mené en parallèle, capable de gérer des volumes de données ou des questions dépassant une seule fenêtre contextuelle.

Agents de recherche

Ce dispositif a été mis en production à grande échelle pour une fonctionnalité de recherche documentaire. Les évaluations internes montrent que le système multi-agents avec Claude Opus 4 comme agent principal et Claude Sonnet 4 comme sous-agents surpasse un système à agent unique Claude Opus 4 de 90,2% sur leurs évaluations de recherche. Cette performance s’explique principalement par trois facteurs qui expliquent 95% de la variance : l’utilisation de tokens (80% de la variance), le nombre d’appels d’outils, et le choix du modèle.

Cependant, ces architectures consomment significativement plus de ressources : les agents utilisent environ 4 fois plus de tokens que les interactions de chat, et les systèmes multi-agents consomment environ 15 fois plus de tokens que les chats simples.

Architecture distribuée

L’architecture est conçue pour être extensible, avec un agent leader de type Claude Opus 4 et des sous-agents Claude Sonnet 4 opérant en parallèle. Elle repose sur la dynamique suivante : analyse de la requête, décomposition en tâches, exécution parallèle, synthèse centralisée, puis attribution des sources.

Le cœur du système repose sur un schéma orchestrateur-travailleurs. L’agent principal, dit « LeadResearcher », commence par formuler un plan d’action, qu’il sauvegarde dans une mémoire persistante pour pallier les limites contextuelles. Il crée ensuite autant de sous-agents que nécessaire, chacun équipé de son objectif, d’un format de sortie, de consignes sur les outils autorisés et de critères de performance. Ces agents opèrent indépendamment, effectuent des recherches web ou utilisent des outils internes, puis retournent leurs résultats pour synthèse.

Recherche dynamique

Contrairement aux approches classiques de type RAG (Retrieval-Augmented Generation), qui effectuent une récupération statique des documents les plus proches de la requête, ce système met en œuvre une recherche dynamique. Chaque sous-agent interagit de manière itérative avec les outils pour affiner ses hypothèses, ajuster ses requêtes et détecter les angles morts. Cela permet au système d’exploiter plus efficacement les budgets de tokens en raison de la distribution du travail sur plusieurs fenêtres contextuelles.

Un des principaux défis réside dans la coordination des agents. Des erreurs courantes ont été observées au début : duplication des recherches, utilisation d’outils inadéquats, ou surcharge de requêtes. Pour éviter ces écueils, la rédaction des prompts s’est structurée autour de principes précis : chaque sous-agent doit recevoir une mission claire, un périmètre d’action strict et un rappel de l’effort attendu selon la complexité de la tâche.

Des règles d’allocation ont été intégrées aux prompts pour éviter la sous- ou sur-utilisation des ressources. Par exemple, une recherche factuelle simple active un seul agent avec une dizaine de requêtes, tandis qu’une enquête complexe peut impliquer plus de dix agents en parallèle. Le modèle a également été utilisé pour s’auto-améliorer : certains agents sont chargés de tester les outils et de réécrire leurs descriptions pour améliorer l’ergonomie, ce qui a réduit de 40 % le temps moyen de complétion des tâches.

Évaluation continue et résilience en production

L’évaluation d’un tel système ne peut reposer sur des trajectoires figées : deux agents peuvent atteindre un même résultat par des chemins très différents. Une méthode d’évaluation a été développée autour d’un juge automatique fondé sur LLM, capable de noter chaque réponse selon cinq critères : exactitude factuelle, précision des citations, complétude, qualité des sources et efficacité dans l’usage des outils.

Des biais de sélection, des hallucinations ponctuelles ou des comportements aberrants ont été identifiés manuellement. Ces retours ont permis d’affiner les heuristiques de choix de source, pour éviter les sites sur-optimisés au détriment de publications scientifiques ou spécialisées.

Cas d’usage et limites actuelles

En production, l’architecture requiert des précautions spécifiques. Chaque agent conserve un état, potentiellement sur des centaines d’interactions. Des mécanismes de sauvegarde et de reprise ont été mis en place pour éviter des pertes massives en cas de défaillance. Une attention particulière est portée au déploiement : les mises à jour suivent un modèle progressif pour ne pas interrompre les agents déjà en fonctionnement.

Le système multi-agent est particulièrement adapté aux tâches exploratoires à forte valeur ajoutée. Les cas d’usage les plus fréquents concernent la veille stratégique, la rédaction technique, la recherche académique et l’analyse d’information sectorielle. Les gains de performance sont significatifs, à condition que les tâches soient parallélisables et que les outils soient bien intégrés.

Toutefois, certains domaines résistent encore à cette approche. Les tâches de programmation, qui impliquent de nombreuses dépendances internes, ou celles qui exigent un partage strict du contexte entre agents, demeurent complexes à coordonner.

Comportements émergents

Le plus grand domaine d’intérêt, pour la recherche mais aussi la future gouvernance de ces systèmes, concerne les comportements émergents dans les systèmes multi-agents. Ces comportements, qui surgissent des interactions entre agents suivant des règles simples, peuvent être aussi imprévisibles qu’organisés. Anthropic les mentionne brièvement : “Les systèmes multi-agents présentent des comportements émergents qui apparaissent sans programmation spécifique. Par exemple, de petits changements apportés à l’agent principal peuvent modifier de manière imprévisible le comportement des sous-agents. Le succès nécessite de comprendre les schémas d’interaction, pas seulement le comportement individuel des agents.”

“Par conséquent, les meilleurs prompts pour ces agents ne sont pas seulement des instructions strictes, mais des cadres de collaboration qui définissent la division du travail, les approches de résolution de problèmes et les budgets d’effort. Réussir cela repose sur une conception soigneuse des prompts et des outils, des heuristiques solides, de l’observabilité et des boucles de rétroaction étroites.”

Tout un programme.

Pour en savoir plus :

L’essentiel