Le plan de DeepMind pour sécuriser l’AGI et l’ASI

Décrypter l’AGI, et la prévoir • Qant, M. de R. avec GPT-4o

DeepMind propose un cadre technique pour prévenir les abus et les dérives des intelligences artificielles aux capacités avancées, dans une logique de précaution face aux risques sévères.

Google DeepMind a publié début avril une approche détaillée de la sécurité technique pour l’intelligence artificielle générale (AGI). Ce document s’attache à définir des mécanismes concrets visant à éviter ce que l’organisation appelle des « préjudices sévères » – des scénarios suffisamment graves pour menacer des pans entiers de l’humanité. Face à la montée en puissance de modèles capables d’égaler ou de dépasser les humains dans de nombreuses tâches non physiques, l’équipe de recherche propose une feuille de route reposant sur une évaluation rigoureuse des risques et sur des principes techniques déjà compatibles avec le développement actuel des systèmes d’IA.

Deux priorités : abus et désalignement

Le cadre de DeepMind repose sur une classification en quatre types de risques : les abus (ou misuse), le désalignement, les erreurs et les risques structurels. Les abus désignent les cas où un utilisateur détourne volontairement un système pour causer un préjudice, par exemple en l’employant pour organiser une cyberattaque. Le désalignement, lui, correspond à un comportement de l’IA contraire à l’intention de ses concepteurs, causé par une divergence dans les objectifs ou les valeurs apprises.

Les erreurs recouvrent les dommages causés de manière non intentionnelle, quand l’IA agit sans comprendre les conséquences. Quant aux risques structurels, ils désignent des dynamiques systémiques entre agents humains et artificiels qui échapperaient au contrôle d’un acteur unique. Dans leur travail, les chercheurs se concentrent sur les deux premières catégories – abus et désalignement – car elles peuvent, selon eux, faire l’objet de traitements techniques directs à court terme.

Vue d'ensemble de l'approche de DeepMind de la lutte contre les abus.

Contenir l’accès aux capacités dangereuses

Pour prévenir les abus, DeepMind met en avant une série de garde-fous visant à limiter l’accès aux fonctionnalités sensibles. Il s’agit d’abord d’identifier les capacités susceptibles d’être détournées pour nuire, puis de mettre en place des évaluations des capacités dangereuses, afin de déterminer si le modèle atteint un seuil critique.

En cas de risque, plusieurs mécanismes peuvent être déployés. Parmi eux : l’entraînement du modèle à refuser les requêtes nocives (post-entraînement de sûreté), la mise en place de systèmes de surveillance qui détectent les tentatives de contournement, et des restrictions d’accès selon les profils utilisateurs. Des tests d’intrusion sont également prévus pour évaluer la robustesse des protections face à des attaques simulées par des équipes de redteaming.

Superviser les modèles et limiter leur autonomie

Concernant le désalignement, DeepMind adopte une double approche. La première consiste à former un modèle qui poursuit les objectifs voulus, via des techniques comme la supervision amplifiée (amplified oversight). Cette méthode utilise l’IA elle-même pour assister le superviseur humain dans l’évaluation des réponses, en confrontant par exemple deux versions du modèle et en demandant à chacune d’identifier les erreurs de l’autre.

La seconde ligne de défense intervient une fois le modèle déployé. Elle s’inspire des principes de la cybersécurité et traite le système comme un agent potentiellement non fiable. Cela suppose l’activation de mesures comme la surveillance en temps réel des actions du modèle, des contrôles d’accès aux outils ou environnements sensibles, et des journaux d’activité auditables.

Des hypothèses fortes sur l’évolution de l’IA

L’ensemble de l’approche repose sur plusieurs hypothèses structurantes. D’abord, DeepMind part du principe qu’il n’existe pas de plafond naturel limitant les capacités de l’IA aux performances humaines. Ensuite, les auteurs estiment plausible l’émergence de systèmes très puissants d’ici à 2030, ce qui impose des solutions rapidement mobilisables, intégrables dans les pratiques actuelles.

Ils anticipent également un scénario d’accélération : des IA capables d’automatiser la recherche scientifique pourraient engendrer une boucle de progrès rapide. Enfin, ils misent sur une continuité approximative des progrès techniques, excluant l’apparition brutale de capacités radicalement nouvelles sans signaux précurseurs détectables.

Vers des standards de sécurité applicables

Cette feuille de route s’inscrit dans une logique de précaution, sans viser l’exhaustivité. Elle cherche à établir un socle de pratiques techniques permettant à un acteur du développement de l’AGI de réduire significativement les risques les plus graves. En s’appuyant sur des principes déjà expérimentés – filtrage, supervision, contrôle d’accès, sécurité logicielle –, DeepMind propose un cadre évolutif, capable de s’adapter aux capacités croissantes des modèles. L’un des objectifs finaux est la construction de safety cases, des dossiers argumentés démontrant qu’un système peut être jugé suffisamment sûr pour une mise en service contrôlée.

Il reste à espérer que Google Deepmind s’applique bien cette méthode à soi-même.

Pour en savoir plus :

L’essentiel