Les biais cachés des grands modèles de langage

“Le robot en juge raciste” (Qant, M. de R. avec Midjourney)

Une étude révèle que les grands modèles de langage, comme GPT-4, manifestent des biais racistes subtils lorsqu'ils traitent des textes en anglais afro-américain.

Une étude menée par des chercheurs de l'université Stanford, de l'université de Chicago et de l'Allen Institute for AI, met en lumière la présence de préjugés racistes subtils dans les grands modèles de langage comme GPT-4. Selon cette étude publiée dans Nature, ces systèmes d'intelligence artificielle manifestent une forme de racisme voilé contre les locuteurs de l'anglais afro-américain (AAE). Ce phénomène, appelé "préjugé dialectal", apparaît sans que la race ne soit explicitement mentionnée, ce qui soulève des inquiétudes sur le rôle des IA dans la perpétuation et l'amplification des discriminations existantes.

Le biais du préjugé dialectal

Les chercheurs ont découvert que les modèles de langage, lorsqu'ils sont confrontés à des textes en AAE, avaient tendance à associer ces locuteurs à des emplois moins prestigieux et, dans des scénarios hypothétiques, à les condamner plus fréquemment pour des crimes et leur infliger plus souvent la peine de mort. Ces biais ont été observés même sans mention explicite de la race, simplement sur la base du dialecte utilisé.

Un exemple marquant est tiré d'une expérience hypothétique dans laquelle les modèles de langage devaient juger des accusés de meurtre. Les résultats ont montré que, dans les cas où les accusés utilisaient l'AAE, les modèles optaient significativement plus souvent pour la peine de mort par rapport aux cas où l'accusé s'exprimait en anglais standard. Cette constatation révèle l'ampleur des préjugés ancrés dans ces systèmes.

Moins de racisme, plus de biais

L'étude souligne également un paradoxe. Bien que les modèles d'IA les plus récents, comme GPT-4, aient réduit leur propension à exprimer des préjugés racistes explicites, ils manifestent des biais implicites plus forts. Les stéréotypes négatifs historiques, qui décrivent les Afro-Américains comme "paresseux", "sales" ou "stupides", persistent dans les réponses des IA lorsqu'elles sont confrontées à des textes en AAE, alors même que ces mêmes IA ont tendance à afficher des stéréotypes plus neutres ou positifs dans des contextes explicites. Cette situation reflète un problème plus vaste dans la formation de ces modèles, qui repose souvent sur des ensembles de données recueillies en ligne, notamment sur des plateformes comme Reddit, qui peuvent contenir des stéréotypes raciaux profondément ancrés.

Les chercheurs ont utilisé une méthode empruntée à la sociolinguistique expérimentale pour mesurer ces biais, appelée "technique de déguisement apparié". Cette approche consiste à analyser la manière dont les IA décrivent des locuteurs selon qu'ils utilisent l'AAE ou l'anglais standard, et à comparer les traits stéréotypés attribués à ces locuteurs. Leurs résultats montrent que les modèles étaient plus enclins à associer les utilisateurs d'AAE à des stéréotypes négatifs issus d'études sociologiques du début du XXe siècle, tandis qu'ils attribuent aux utilisateurs d'anglais standard des stéréotypes plus neutres ou positifs.

Les dangers d’une IA décisionnelle

Ces conclusions suscitent des inquiétudes quant à l'utilisation des IA dans des contextes décisionnels critiques, comme le recrutement, l'évaluation académique ou encore le système judiciaire. Les chercheurs avertissent que l'intégration de ces modèles dans de tels processus pourrait aggraver les disparités raciales déjà existantes. Ils appellent également les entreprises à revoir leurs pratiques de formation et de contrôle des biais dans les IA, afin de mieux comprendre et limiter ces préjugés implicites.

Malgré les efforts des développeurs pour atténuer les stéréotypes raciaux, l'étude montre que les tentatives actuelles, comme l'incorporation de retours humains dans l'entraînement des modèles, ne font que masquer les problèmes au lieu de les résoudre. Pire encore, l'agrandissement de ces modèles, loin de réduire les biais, semble renforcer ces préjugés implicites tout en diminuant leur expression explicite.

L'un des chercheurs principaux, Pratyusha Ria Kalluri, souligne que cette tendance à dissimuler les préjugés sous une façade d'impartialité est préoccupante. En effet, la réduction des biais explicites dans les modèles ne devrait pas cacher la persistance des formes plus subtiles de discrimination. Elle recommande que les régulateurs et décideurs politiques envisagent de restreindre l'utilisation de ces IA dans des secteurs comme l'éducation, l'embauche ou la justice, tant que ces problèmes n'auront pas été résolus.

Pour en savoir plus :

L’essentiel