Anthropic explore la boîte noire des LLMs

Capture d’écran 2025-03-28 104042

Deux rapports d’Anthropic révèlent comment le modèle Claude 3.5 traite les tâches, remettant en cause plusieurs hypothèses sur le fonctionnement des modèles de langage.

  • Anthropic a publié deux études décrivant une méthode d’analyse appelée circuit tracing, utilisée pour suivre le raisonnement de son modèle Claude 3.5 Haiku sur dix tâches précises.
  • Ce traçage montre que le modèle mobilise des composants abstraits communs, puis choisit une langue de réponse a posteriori, ce qui suggère l’existence d’un espace conceptuel universel indépendant des langues.
  • Lors de la résolution de problèmes mathématiques simples, Claude utilise des stratégies internes non standard, différentes de celles qu’il déclare utiliser ensuite, révélant une dissociation entre raisonnement réel et explication générée.
  • L’analyse de la génération poétique indique que Claude anticipe certains mots clés plusieurs étapes à l’avance, démontrant une capacité de planification et d’adaptation peu attendue dans un processus supposé séquentiel.
  • Anthropic a également observé que les hallucinations surviennent lorsque certains composants contournent des garde-fous intégrés pendant la phase de post-entraînement, notamment lors de requêtes impliquant des célébrités.
  • À SURVEILLER : La lumière dans les boîtes noires. Mieux comprendre les mécanismes internes des modèles de langage améliore leur “explicabilité” et les méthodes d’audit, mais aussi leur fiabilité et l’analyse de leurs capacités réelles.

L’essentiel