Le robot adepte du kung-fu

Le robot qui faisait du kung fu • Qant avec GPT-4o

Une équipe de chercheurs chinois et américains a mis au point une méthode d’apprentissage par renforcement permettant à un robot humanoïde de réaliser des postures d’équilibre extrême sur une jambe, en s’adaptant aux incertitudes du monde réel.


Différentes tâches d’équilibre extrême du “Swallow Balance” au “Bruce Lee’s Kick” • Tong Zhang et al.

Reproduire la stabilité posturale humaine constitue un défi important pour les robots humanoïdes. Le maintien en équilibre dans des positions asymétriques, comme une posture martiale sur une jambe ou un grand écart suspendu, exige un contrôle précis du centre de masse, une coordination de l’ensemble du corps et une grande tolérance aux perturbations. Dans une étude publiée en mai, des chercheurs de Tsinghua, Berkeley et de l’UC San Diego présentent HuB, une architecture unifiée qui permet à un humanoïde de réussir de telles tâches malgré les imprécisions des capteurs ou les aléas du transfert simulation-réalité.

Le système a été validé sur le robot humanoïde Unitree G1 à travers six tâches statiques complexes, dont le « Swallow Balance », inspiré d’une figure de gymnastique, ou le « Bruce Lee’s Kick », une extension de jambe à hauteur du torse en équilibre sur un pied. Dans tous les cas, HuB atteint des taux de réussite de 97 % à 100 % en simulation, contre 0 % à 4 % pour les méthodes de référence précédentes. L’architecture repose sur trois modules conçus pour traiter respectivement les erreurs de mouvement de référence, les difficultés d’apprentissage du contrôle et le transfert vers la robotique réelle.

Un pipeline centré sur la stabilité

Le fonctionnement de HuB • Tong Zhang et al.

L’approche repose sur l’apprentissage par renforcement profond avec suivi de trajectoire, mais en intégrant plusieurs aménagements spécifiques au contrôle de l’équilibre. Le premier module améliore la qualité des mouvements de référence extraits de vidéos humaines. Pour limiter les effets des artefacts, les chercheurs ont conçu un processus de « retargeting » s’appuyant sur une stabilisation de la position du pied porteur et un filtrage du centre de masse, le modèle corporel SMPL. Ces ajustements réduisent significativement les pertes d’optimisation, en particulier dans les poses extrêmes comme le squat profond.

Le deuxième module introduit un assouplissement du suivi strict, permettant au robot de s’éloigner légèrement des trajectoires humaines pour gagner en stabilité. Cette marge est encadrée par des fonctions de récompense orientées vers l’équilibre : pénalisation des contacts indésirables au sol, incitation à maintenir le centre de masse au-dessus du pied support, et limitation de la proximité entre les pieds pour éviter les collisions.

Robustesse face aux perturbations physiques

Le troisième module vise à améliorer la robustesse en conditions réelles. Le robot est entraîné avec des perturbations réalistes, dont du bruit sensoriel calqué sur les erreurs d’une centrale inertielle typique (modélisé par un bruit d’Ornstein-Uhlenbeck), ainsi que des impulsions répétées sur la base du robot pour simuler des pertes d’équilibre progressives. Contrairement aux approches précédentes qui utilisaient des perturbations rares et intenses, HuB privilégie des impulsions faibles mais fréquentes, mieux adaptées aux dynamiques fines des tâches d’équilibre sur une jambe.

Le transfert en conditions réelles est effectué sur cinq figures. Dans tous les cas sauf un, HuB réussit systématiquement là où le modèle de référence OmniH2O échoue, en chutant ou en produisant des mouvements instables. Lors du test du coup de pied « Bruce Lee’s Kick », le robot parvient à reproduire dix fois de suite la posture sans intervention ni recalibrage. Il récupère également rapidement après avoir été frappé par un ballon lancé violemment sur lui en pleine exécution.

Mesures et analyse comparative

Les performances ont été évaluées selon plusieurs indicateurs : taux de réussite, erreurs de contact, glissement au sol, variation d’action d’une frame à l’autre, et précision du suivi des points clés corporels (position, vitesse, accélération). En simulation comme dans le monde réel, HuB présente des résultats supérieurs sur tous les critères. L’ablation des modules, un par un, montre leurs contributions complémentaires : sans perturbations d’entraînement, la stabilité chute ; sans tolérance de suivi, la trajectoire est plus précise mais la stabilité est perdue ; sans pénalisation des contacts indésirables, le taux de succès s’effondre.

Limites et perspectives

Le système est conçu spécifiquement pour des tâches de type équilibre quasi-statique, avec des hypothèses fortes sur les phases de contact. Il est moins adapté à des comportements dynamiques comme la course ou le saut, qui exigeraient des architectures différentes. De plus, le système reste dépendant de mouvements de référence humains ; il ne généralise pas spontanément à des mouvements inédits sans nouvelle phase d’apprentissage. Les auteurs identifient comme objectif futur la conception de politiques plus générales capables de s’adapter à une plus grande diversité de gestes sans réentraînement.

Pour en savoir plus :

L’essentiel