Le déferlement de l’IA dans la recherche biologique prend de l’ampleur.
Le 31 octobre dernier, Google DeepMind et Isomorphic Labs, une autre filiale de Google consacrée à la recherche de médicaments par l’IA, ont présenté la troisième version de leur modèle AlphaFold, qui calcule le repliement des protéines mais aussi, désormais, la structure d’autres molécules comme les ligands et des acides nucléiques. En deux ans, sa base de données est passée de quelques centaines de milliers de structures à un nombre sans précédent : 214 millions. La Protein Data Bank, qui fait référence pour l’instant encore, en est restée à l’ordre de grandeur précédent. “L’arrivée d’AlphaFold a transformé le champ de la biologie structurelle”, conclut une étude publiée la semaine dernière, AlphaFold two years on: validation and impact. Elle a été réalisée par des chercheurs de Google Deepmind, il est vrai. Mais c’est le début d’une tendance.
En novembre, une équipe de l’université de Stanford a présenté un modèle d’IA entraîné sur une base de 33 millions de cellules, CellXGene. Universal Cell Embedding (UCE) peut représenter n’importe quelle cellule, indépendamment de son tissu ou de son espèce. Selon des résultats préliminaires, UCE pourrait avoir déjà permis de découvrir une nouvelle cellule humaine.
Le mois dernier, une étude parue sur Nature Machine Intelligence (State-specific protein–ligand complex structure prediction with a multiscale deep generative model) a fait apparaître un rival pour Alpha Fold : Neural Plexer de la start-up californienne Iambic Therapeutics, que l’étude considère être supérieur à AlphaFold 2.
En aval des modèles, la biologie semble logée à la même enseigne que la chimie : les facilités des modèles d’IA pour le calcul combinatoire génèrent un tsunami de structures à examiner, tester, valider. Et cela ne va pas sans risques : les modèles se prêtent aussi bien à la découverte de nouveaux médicaments ou la surveillance épidémiologique qu’à la création de nouveaux agents pathogènes.
Prévenir le bioterrorisme
La semaine dernière, une centaine de scientifiques du monde entier, dont la biochimiste Frances Arnold, prix Nobel 2018, ont signé un Engagement au développement responsable de l’IA pour la création de protéines. Les scientifiques s’engagent à suivre cinq principes directeurs, comme la sécurité et l’ouverture, ainsi qu’un décalogue de mesures impliquant notamment la surveillance de leurs fournisseurs d’ADN synthétique. Cette gestion proactive des risques associés aux technologies de l'IA cherche notamment à éviter la création d'armes biologiques. Elle comprend également des mesures pour empêcher des catastrophes involontaires liées à l'ADN synthétique.
Parmi les engagements, les scientifiques s'engagent à ne pas mener de recherches susceptibles d'entraîner un “préjudice global” ou un mauvais usage, et à utiliser uniquement des services d'ADN de fournisseurs disposant de bonnes mesures de filtrage pour détecter les biomolécules dangereuses avant leur fabrication.
De plus, l’Engagement prévoit que les scientifiques évaluent les risques de sécurité avant la publication de nouvelles IA. Ils participeront à des pratiques de "red teaming", qui impliquent des exercices simulés pour identifier les faiblesses potentielles dans les protocoles de filtrage. Le risque que des modèles grand public aident des groupes terroristes à se doter d’armes biologiques reste en effet entier, depuis que le cofondateur d’Anthropic Dario Amodei l’a évoqué devant le sénat américain en juillet dernier.
Pour en savoir plus :
- Community Values, Guiding Principles, and Commitments for the Responsible Development of AI for Protein Design
- E. Callaway, Could AI-designed proteins be weaponized? Scientists lay out safety guidelines, Nature, 8 mars 2024
- New York Times
- Oleg Kovalevskiy et al., AlphaFold two years on: validation and impact, Arxiv.org, Mars 2024
- Zhuoran Qiao, State-specific protein–ligand complex structure prediction with a multiscale deep generative model, Nature Machine Intelligence, 12 Feb. 2024
- Yanay Rosen et al., Universal Cell Embeddings: A Foundation Model for Cell Biology, BioRxiv, 29 Nov. 2023
- Google DeepMind, Isomorphic Labs,A glimpse of the next generation of AlphaFold, Oct. 2023