Le cancer du sein est aujourd’hui la pathologie la plus fréquemment diagnostiquée chez les femmes aux États-Unis. Les retards de diagnostic et la difficulté d’accès à l’information médicale claire comptent parmi les principaux facteurs de risque évitables. Dans ce contexte, les grands modèles de langage (LLMs) suscitent un intérêt croissant comme outils de communication en santé. Mais peuvent-ils produire des contenus à la fois précis, accessibles, empathiques et sûrs ? Un article prépublié par une équipe conjointe de la Georgia State University et de la Morehouse School of Medicine a évalué huit modèles — cinq généralistes et trois médicaux — selon un cadre d’analyse multidimensionnel spécialement conçu pour les besoins des patientes en oncologie.
Trois dimensions d’analyse
L’étude évalue chaque modèle selon trois grands axes : la qualité linguistique (exactitude, fluidité, usage du jargon, structure logique), la sécurité et la fiabilité (toxicité, biais, confiance) et enfin l’accessibilité et l’impact émotionnel du contenu (lisibilité, clarté, compassion, incitation à l’action).
Cadre d'évaluation complet pour évaluer les LLM médicaux généraux et spécialisés pour la communication sur le cancer. • Agnik Saha et al.
Les chercheurs ont compilé un corpus de 4 643 questions réelles sur le cancer du sein et du col de l’utérus, tirées de bases publiques (PubMedQA, MedQA, MedMCQA, MedLFQA, HealthcareMagic, iCliniq). Chaque modèle a répondu à 50 requêtes tirées au sort, et ses sorties ont été évaluées à la fois par des métriques quantitatives (BLEURT, BERTScore, ROUGE, scores de lisibilité, score de réflexion) et par deux expertes médicales suivant une grille qualitative.
Les modèles généralistes plus lisibles, mais moins simples
Les modèles généralistes évalués sont Llama 3, Gemma, Alpaca, Mistral et Vicuna. Les modèles médicaux sont MedAlpaca, BioMistral et Meditron. De façon générale, les modèles généralistes — en particulier Llama 3 et Gemma — produisent des réponses mieux structurées, plus fluides, plus précises et plus engageantes.
Mais ces réponses sont aussi plus complexes. Leur complexité, mesurée par les indices Flesch et Gunning Fog, les rend moins accessibles aux patientes peu alphabétisées ou sans formation médicale. À l’inverse, Alpaca et MedAlpaca génèrent des contenus plus simples, mieux adaptés à une diffusion grand public, mais souvent moins nuancés ou moins cohérents.
Sécurité et biais : un avantage inattendu des modèles généralistes
Contre-intuitivement, les modèles spécialisés dans le domaine médical ne sont pas les plus sûrs. Sur les critères de toxicité, d’attaques identitaires ou de biais de genre, les meilleurs scores – les plus faibles – reviennent à des modèles généralistes comme Llama 3 ou Alpaca. À l’inverse, des modèles comme Meditron ou BioMistral présentent des taux plus élevés d’erreurs factuelles ou de formulations biaisées, notamment selon l’origine ethnique ou le genre du patient simulé.
La robustesse des modèles généralistes s’explique en partie par leur exposition à des données variées et non exclusivement médicales, ce qui semble améliorer leur capacité à rester neutres et à produire un ton adapté aux différents publics.
Des différences marquées dans les réponses
Les évaluations qualitatives montrent que les modèles les plus performants, Llama 3 en tête, savent produire des réponses empathiques, avec une structuration logique et une capacité à inciter à l’action. En revanche, les modèles médicaux, malgré leur spécialisation, échouent souvent à générer un contenu clair et émotionnellement adapté.
Par exemple, dans le cas d’une question sensible sur le décès rapide d’une patiente après une chimiothérapie, Llama 3 produit une réponse nuancée et empathique, intégrant les données cliniques fournies, là où Meditron se contente de reformuler la question sans apporter d’élément explicatif, et où BioMistral fournit un contenu confus, parfois halluciné.
Des usages encore précoces en clinique
Ces résultats rappellent que la spécialisation d’un modèle ne garantit pas la qualité de ses sorties, et que la pertinence médicale d’un texte ne suffit pas à assurer sa compréhension ou sa réception positive. Les auteurs soulignent que les modèles spécialisés doivent encore progresser sur la cohérence, la lisibilité et la gestion du ton, avant d’être intégrés dans des dispositifs de communication directe avec les patientes.
Ils recommandent de combiner les approches : fine-tuner les modèles généralistes à partir de corpus médicaux bien annotés, tout en conservant leur capacité à structurer un discours accessible. Les efforts futurs devraient inclure des méthodes d’hybridation neurosymbolique, intégrant des bases de connaissances médicales explicites, des contraintes linguistiques et des évaluations humaines systématiques.
Vers une IA de santé digne de confiance
L’étude conclut que les grands modèles de langage ont un rôle à jouer dans la communication sur les cancers, mais que ce rôle nécessite une supervision étroite. Une IA utile en santé n’est pas seulement une IA compétente : elle doit produire un discours fiable, clair, approprié et sans danger. Les auteurs appellent à établir des standards d’évaluation spécifiques au domaine médical, incluant lisibilité, affectivité et sécurité.
À terme, ces standards pourraient guider la conception d’outils cliniques ou éducatifs fondés sur l’IA, à destination des patientes, du personnel soignant ou du grand public. Encore faut-il que les modèles eux-mêmes soient capables de combiner précision scientifique, prudence éthique et attention au vécu de celles et ceux à qui ils s’adressent.
Pour en savoir plus :
- Agnik Saha et al., Large Language Models for Cancer Communication: Evaluating Linguistic Quality, Safety, and Accessibility in Generative AI, Arxiv, 2025