Protéines sur mesure : quand l’IA « écrit » le vivant

Décrypter les protéines avec l'IA. • Qant avec GPT-4o

En appliquant les méthodes du traitement du langage naturel aux séquences biologiques, plusieurs modèles génératifs récents parviennent à concevoir des protéines. Au cœur de ce progrès se trouve la tokenisation, étape cruciale pour faire des acides aminés les unités d’un vocabulaire fonctionnel.

Et si l’on traitait les acides aminés comme les lettres d’un alphabet, pour composer de nouvelles “phrases” protéiques ? Depuis 2020 et l’exploit d’AlphaFold (DeepMind), capable de prédire la structure 3D des protéines, une nouvelle génération d’intelligences artificielles va plus loin : créer des protéines inédites, conçues pour une fonction précise, thérapeutique par exemple. Autrement dit, elles ne se contentent plus d’analyser les protéines naturelles, elles peuvent en proposer de nouvelles, sur mesure.

Les applications de ces modèles promettent une révolution dans la découverte de médicaments, mais pas seulement. En générant des protéines aux propriétés inédites, ils offrent des perspectives pour la conception d’enzymes industrielles, de biomatériaux ou de systèmes de bioremédiation. Leur capacité à explorer « l’espace des protéines » au-delà des solutions naturelles laisse entrevoir la possibilité de créer des molécules dotées de fonctions encore inconnues.

La tokenisation comme infrastructure biologique

À mesure que les modèles deviennent plus complexes, la question du format d’entrée – la tokenisation – devient un enjeu central. Les performances des modèles dépendent directement de la qualité de cette représentation initiale. En tokenisant correctement les séquences, on permet aux modèles d’encoder les relations à longue distance, cruciales dans les interactions structurelles des protéines. Le mécanisme d’attention permet alors de pondérer chaque token en fonction de tous les autres, comme dans les phrases, mais avec des contraintes biochimiques propres.

Les protéines, longues chaînes d’acides aminés, peuvent être interprétées comme des séquences, comparables à des phrases. Cette analogie est exploitée par des chercheurs en biologie computationnelle, qui adaptent les modèles d’IA, avec des architectures de diffusion ou de type transformer, à l’analyse et à la génération de séquences protéiques. Chaque protéine est traduite en une série de tokens, unités de sens pour la machine, sur le modèle des mots en traitement automatique du langage. Mais contrairement à une langue naturelle, les frontières dans les séquences biologiques ne sont pas explicites, ce qui rend la tokenisation plus complexe.

Deux études qui viennent d’être pré-publiées sur Arxiv se penchent en profondeur sur la tokenisation d’un des premiers LLM biologiques, ProtGPT2. Les premiers modèles se contentent de considérer chaque acide aminé comme un token individuel. Aujourd’hui, la majorité des approches repose sur des méthodes avancées issues du NLP, comme le Byte Pair Encoding (BPE) ou WordPiece. Ces techniques permettent d’identifier des motifs fréquents dans les séquences et de les transformer en tokens de taille variable. Dans le cas de ProtGPT2, un modèle génératif entraîné sur environ 50 millions de séquences issues de la base UniRef50, le vocabulaire final comprend 50 256 tokens, avec une taille moyenne de 4 acides aminés par unité.

Cette compression efficace réduit la longueur des séquences d’entrée tout en augmentant la densité d’information biologique. Des travaux récents montrent que des méthodes comme evoBPE, qui intègrent les dynamiques évolutives dans le choix des tokens, permettent d’obtenir des représentations plus robustes et biologiquement pertinentes. L’objectif est de capter non seulement la syntaxe des protéines (répartition et enchaînement des acides aminés), mais aussi leur sémantique : leurs fonctions et structures.

Générer des protéines fonctionnelles

Protocole de fine-tuning de ProtGPT2 à l'aide de la protéine spike SARS-CoV-2. • Sam Paul Dhamodharan et al.

À partir de ces séquences tokenisées, les modèles génératifs comme ProtGPT2 s'entraînent de manière auto-régressive à prédire le token suivant dans une chaîne donnée. L’architecture de ProtGPT2, composée de 36 couches et 738 millions de paramètres, s’inspire directement de GPT-2 : c’est un LLM, comme celui qui a donné naissance à GPT-4 et aux grands modèles actuels.

Son objectif n’est pas de classifier ou de prédire une fonction, mais de générer des séquences de novo, potentiellement viables. Et les résultats sont probants. Sur 10 000 séquences générées aléatoirement par ProtGPT2, 87,59 % présentent des domaines globulaires, contre 88,4 % dans les protéines naturelles. Les structures secondaires (hélices α, feuillets β, régions désordonnées) sont également bien reproduites. ProtGPT2 explore aussi des zones peu connues du répertoire naturel, au-delà des séquences issues de l’évolution, tout en produisant des structures stables et repliées selon les prédictions d’AlphaFold. Ces protéines synthétiques couvrent des topologies complexes, y compris des structures tout-bêta et des protéines membranaires, historiquement difficiles à concevoir.

Apprendre à prédire l’évolution

Ces capacités ne se limitent pas à la génération aléatoire. Des versions spécialisées de ProtGPT2 peuvent être fine-tunées sur des jeux de données spécifiques pour des applications ciblées. Une équipe indienne a utilisé une version fine-tunée de ProtGPT2 pour prédire des mutations dans la région RBD de la protéine spike du SARS-CoV-2, anticipant l’émergence de variants plus virulents que le variant Omicron. En générant des mutations localisées autour du segment 480–488, cette version du modèle a identifié des substitutions qui augmentent l’affinité de liaison avec le récepteur ACE2, notamment par la rupture d’un pont disulfure, analysée en dynamique moléculaire.

Les mutations simulées, comme C480H ou E484I, se sont révélées plus stables que les mutations connues d’Omicron, avec des énergies de liaison inférieures, selon les calculs de dynamique moléculaire (MMPBSA). Le modèle a ainsi permis d’identifier des régions critiques de la protéine susceptibles de mutations futures, démontrant l’intérêt des modèles génératifs pour la virologie prédictive.

En résumé, la tokenisation ne constitue pas seulement une étape technique : elle est l’équivalent d’un dictionnaire dans la tentative de comprendre – et de réécrire – le langage de la vie. Demain, nous passerons en revue la recherche sur l'apprentissage par représentation des protéines. Une étude de l’université de l’Alabama étudie les cinq approches clés, basées sur les caractéristiques, sur les séquences, sur les structures, sur les complexes et les approches multimodales.

Pour en savoir plus :

L’essentiel