Les assistants conversationnels prennent chaque jour position sur des dilemmes personnels, des questions sociales, des choix de carrière ou de mode de vie. Dans ces échanges, même quand ils se veulent neutres, ils mobilisent implicitement des valeurs. Mais lesquelles ? Et de quelle manière les expriment-ils ?
Pour répondre à ces questions, Anthropic a mené une analyse de grande ampleur, qui repose sur l’examen de 308 210 conversations entre des utilisateurs et le modèle Claude. En ciblant les interactions les plus subjectives — celles où l’IA ne se contente pas de rapporter des faits mais formule une position — l’équipe cherche à cartographier les principes normatifs que le système met en œuvre dans la pratique.
Ils retiennent comme « valeurs » toute considération normative susceptible d’influencer la réponse du modèle : promotion de la transparence, respect de l’autonomie, souci du bien-être, par exemple. Ces valeurs peuvent être explicites (« je privilégie l’équilibre ») ou implicites, déduites du contenu ou de la structure de la réponse. La détection est automatisée et anonymisée, dans un cadre strict de préservation de la vie privée.
Cinq familles de valeurs dominantes
La taxonomie des valeurs de l’IA pour Anthropic
L’analyse fait émerger une taxonomie de 3 307 valeurs différentes, organisées selon cinq grandes catégories : pratiques (efficacité, compétence), épistémiques (rigueur, exactitude), sociales (empathie, justice), protectrices (prévention, confidentialité) et personnelles (autonomie, expression de soi). Deux catégories dominent nettement : les valeurs pratiques (31 %) et épistémiques (22 %), reflet du rôle utilitaire assigné au modèle.
Les valeurs les plus fréquemment exprimées sont « aide » (23,4 % des conversations), « professionnalisme » (22,9 %), « transparence » (17,4 %) et « clarté » (16,6 %). Ces occurrences élevées traduisent une forte concentration autour de quelques valeurs centrales, qui structurent les réponses dans tous les contextes. À l’inverse, les valeurs exprimées par les utilisateurs sont beaucoup plus diverses, avec une répartition plus plate et une dominante beaucoup moins marquée.
Des valeurs qui varient avec le contexte
Si certaines valeurs sont quasi systématiques — quelle que soit la question posée — d’autres n’apparaissent que dans des contextes précis. Claude manifeste par exemple des valeurs de « limites saines » ou de « respect mutuel » lorsqu’il est sollicité pour des conseils relationnels. Il valorise le pouvoir d'agir des humains (“agency”) dans les échanges portant sur l’éthique des technologies. Lorsqu’il est interrogé sur des événements historiques sensibles, des valeurs comme « précision historique » ou « rigueur factuelle » émergent nettement.
Ce lien entre tâche et valeurs est mis en évidence par une série d’analyses statistiques, qui montrent une forte dépendance des valeurs exprimées à la nature de la demande. Claude ne se contente donc pas d’appliquer un corpus fixe, mais ajuste ses références selon le contexte.
Réponses collaboratives, réfractaires ou redirigées
L’équipe a également catégorisé la manière dont l’IA répond aux valeurs exprimées par les utilisateurs. Dans 45 % des cas, Claude affiche un soutien explicite ou modéré. Dans 10 % des cas, il reformule ou redirige les valeurs évoquées (par exemple en orientant une discussion sur l’apparence vers le bien-être émotionnel). La résistance, elle, reste minoritaire : 5,4 % des réponses s’opposent directement aux valeurs exprimées par l’utilisateur, notamment lorsqu’elles contreviennent à la politique d’usage du modèle (recherches de contenu nuisible, contournement des règles, etc.).
Dans ces cas-là, les valeurs exprimées deviennent plus visibles : Claude invoque des principes éthiques comme la prévention du préjudice, l’intégrité ou la responsabilité, qu’il articule alors explicitement. Les chercheurs soulignent que ce sont souvent les situations de désaccord — plus que les échanges coopératifs — qui rendent les valeurs de l’IA le plus lisibles.
Un miroir partiel des utilisateurs
Dans les échanges où des valeurs humaines sont exprimées, Claude les reflète dans 20 % des cas environ, c’est-à-dire qu’il emploie exactement la même valeur. Ce taux tombe à 1 % en cas de désaccord marqué. L’IA reflète d’autant plus facilement les valeurs prosociales — comme la bienveillance ou la coopération — qu’elles sont formulées de manière explicite. À l’inverse, elle oppose systématiquement des contre-valeurs à des demandes valorisant la transgression, l’exploitation ou la désinformation.
Les chercheurs observent que certains modèles, comme Claude Opus, manifestent davantage de résistance et expriment des valeurs plus marquées que d’autres variantes du même système. Cela plaide, selon eux, pour une caractérisation systématique des modèles à travers l’analyse de leurs valeurs en contexte réel.
Une grammaire éthique contextuelle
Au total, l’étude dessine les contours d’un modèle de langage animé par un ensemble cohérent mais non figé de valeurs. Certaines sont transversales et quasi permanentes (aide, clarté, rigueur), d’autres surgissent selon le sujet ou le ton de l’interaction. Les chercheurs insistent sur la nature dynamique de ces valeurs, qui s’ajustent aux contenus comme aux utilisateurs.
Cette approche, fondée sur l’observation à grande échelle et non sur des tests standardisés, vise à fournir une base empirique pour l’évaluation et l’alignement des modèles. En montrant comment les principes généraux de l’entraînement — « utile, honnête, inoffensif » — se traduisent dans les réponses effectives, l’étude contribue à une meilleure compréhension des mécanismes normatifs implicites qui structurent les assistants IA.
Pour en savoir plus :