Comprendre la structure et le comportement des protéines est un défi majeur de la biologie moléculaire. Ces macromolécules, constituées de chaînes d’acides aminés, adoptent des formes complexes et jouent un rôle clé dans toutes les fonctions cellulaires : catalyse enzymatique, transport, signalisation, reconnaissance moléculaire. Or, leur activité biologique dépend étroitement de leur repliement tridimensionnel, lui-même dicté par la séquence.
Face à la complexité du problème, les chercheurs se tournent vers des techniques d’apprentissage par représentation (protein representation learning ou PRL), capables de transformer ces objets structurés en vecteurs numériques exploitables par des modèles prédictifs.
Le PRL est donc une approche transformatrice qui vise à convertir des données complexes et de grande dimension sur les protéines (telles que les séquences et les structures) en embeddings (représentations vectorielles) compacts et informatifs. Ces embeddings conservent les motifs essentiels tout en permettant des calculs efficaces. Une étude récente de l’université de l’Alabama à Birmingham propose une synthèse de ce champ en rapide expansion, en distinguant cinq grandes approches complémentaires : basées sur les caractéristiques, sur les séquences, sur les structures, sur les complexes moléculaires, et sur les données multimodales.
Vue d'ensemble des principaux éléments et thèmes abordés dans l'étude de l'université de l'Alabama. • Viet Thanh Duy Nguyen et Truong-Son Hy
Le lien du PRL avec l'intelligence artificielle, et le deep learning en particulier, est fondamental. Les Protein Language Models (PLMs) sont devenus le paradigme dominant au sein du PRL. Cette approche s'inspire des grands modèles linguistiques (Large Language Models ou LLM) utilisés en traitement automatique du langage naturel. L'analogie est que les séquences d'acides aminés des protéines peuvent être vues comme un "langage biologique" avec sa propre "grammaire" et ses propres motifs. Les PLMs modélisent les séquences protéiques comme un langage biologique, permettant ainsi des prédictions et des analyses à grande échelle.
Des descripteurs pour représenter les propriétés biochimiques
Les premières méthodes de PRL exploitent des descripteurs prédéfinis, issus de la biochimie ou de la biophysique, pour transformer une protéine en vecteur numérique. Ces représentations intègrent par exemple la composition en acides aminés, les propriétés physico-chimiques locales (hydrophobicité, charge, taille), ou des matrices de scores issues d’alignements multiples.
Si elles ont joué un rôle fondateur dans la modélisation des protéines, ces approches présentent des limites : elles ignorent souvent le contexte structural ou fonctionnel et reposent sur des choix manuels de caractéristiques. Elles sont aujourd’hui dépassées, dans de nombreuses tâches, par les modèles neuronaux apprenant directement à partir des données brutes.
La séquence comme langage
Les approches les plus dynamiques s’appuient sur l’analogie entre une protéine et une phrase, chaque acide aminé jouant le rôle d’un mot. En appliquant les techniques du traitement du langage naturel, on peut apprendre à prédire le mot masqué, identifier les motifs répétés ou estimer la similarité de deux chaînes.
Deux grandes familles coexistent. Les méthodes alignées s’appuient sur les alignements de séquences homologues, comme dans AlphaFold. Elles sont puissantes, mais limitées aux protéines pour lesquelles de nombreux homologues sont connus. Les méthodes non alignées, à l’inverse, apprennent à partir de séquences individuelles, en exploitant des corpus de plusieurs milliards de protéines. Les modèles issus de cette tradition, appelés « modèles de langage protéiques », produisent des représentations capables de capturer implicitement la structure ou la fonction, et peuvent être réutilisés pour de nombreuses tâches.
Intégrer l’information structurelle
Les approches structurelles cherchent à décrire directement la géométrie des protéines à partir de leur conformation tridimensionnelle. Elles opèrent à différents niveaux : au niveau des acides aminés (représentés comme graphes de résidus), au niveau atomique (par nuages de points ou réseaux convolutifs 3D), ou au niveau des surfaces moléculaires (via des maillages ou des représentations géodésiques).
Ces modèles sont particulièrement adaptés aux tâches de prédiction de sites actifs, d’interaction moléculaire ou de stabilité. Ils doivent néanmoins composer avec des défis spécifiques : données structurales parfois rares, fort coût computationnel, et nécessité d’intégrer les symétries spatiales pour garantir la cohérence des prédictions, indépendamment de l’orientation dans l’espace.
Représenter les interactions moléculaires
Pour de nombreuses applications, il ne suffit pas de représenter une protéine seule. Il faut décrire les complexes qu’elle forme avec d’autres protéines ou avec des ligands. Deux familles d’approches se dégagent. Les modèles sans structure explicite représentent séparément chaque molécule, puis apprennent à prédire leur interaction. Ils sont plus légers et s’adaptent à des contextes où peu d’informations structurales sont disponibles.
À l’inverse, les modèles structurels intègrent directement la géométrie du complexe pour modéliser les forces physiques en jeu (liaisons hydrogène, interactions hydrophobes, ponts salins…). Ce niveau de détail améliore la précision des prédictions mais requiert des données complexes, souvent issues de la cristallographie ou de la cryo-microscopie.
Fusionner les modalités
La dernière famille d’approches combine plusieurs types de données — séquence, structure, annotations fonctionnelles — pour produire des représentations multimodales. Certaines intègrent l’information structurale dans un modèle de séquence, d’autres encodent chaque modalité séparément avant de les fusionner dans un espace commun.
Ces modèles cherchent à capter la totalité du signal biologique : la forme, l’histoire évolutive, les fonctions, les contextes d’expression. Cette approche est prometteuse pour les tâches complexes comme la prédiction d’interactions, la conception de protéines ou la compréhension des effets de mutation. Mais elle soulève aussi des défis de taille : rares sont les bases de données fournissant ces informations de manière simultanée et harmonisée.
Des applications à fort impact
L’étude détaille les nombreuses applications du protein representation learning : prédiction de propriétés (solubilité, stabilité, activité), repliement structurel, conception d’enzymes ou d’anticorps, optimisation d’affinité ou de spécificité. Elle souligne également les avancées récentes en matière de découverte de médicaments, via des modèles capables de concevoir des ligands adaptés à une cible protéique ou de repérer des opportunités de repositionnement thérapeutique.
Enfin, elle identifie plusieurs priorités pour les années à venir : rendre les modèles plus explicables, améliorer leur généralisation à des séquences inédites ou mutées, étendre les approches à l’ADN et à l’ARN, et faire baisser les coûts computationnels pour démocratiser leur usage. Dans un domaine où les données sont massives et hétérogènes, mais les applications souvent critiques, ces chantiers détermineront l’accessibilité et l’impact futur de ces technologies dans la recherche biomédicale.
Pour en savoir plus :
- Viet Thanh Duy Nguyen et Truong-Son Hy, Advances in Protein Representation Learning: Methods, Applications, and Future Directions, Arxiv, 2025