Les véhicules de surface autonomes (ASV) suscitent un intérêt croissant pour des applications comme la surveillance environnementale et la collecte de déchets flottants. Mais face aux contraintes du monde réel – charges asymétriques, courants, vents ou variations de masse – les approches classiques de contrôle, comme la commande prédictive (MPC), peinent à maintenir une performance fiable. C’est dans ce contexte que des chercheurs du Georgia Institute of Technology et de GeorgiaTech Europe ont testé une alternative fondée sur l’apprentissage par renforcement profond (DRL), en comparant ses performances à celles du MPC dans des conditions réelles perturbées.
Capture de déchets flottants
L’étude repose sur une tâche de capture de déchets flottants par un petit ASV équipé d’un filet. L’agent DRL, entraîné avec l’algorithme PPO dans des environnements de simulation à haute performance de Nvidia (Isaac Sim et OmniIsaacGym), devait atteindre des cibles flottantes tout en s’adaptant à des modifications dynamiques du comportement du robot. Pour cela, les chercheurs ont utilisé une stratégie de randomisation de domaine, injectant aléatoirement du bruit sur les capteurs, les commandes et la dynamique du système pendant l’entraînement.
L’évaluation du contrôleur a été menée à la fois en simulation (sous la plateforme open source Gazebo) et sur le terrain avec un robot Kingfisher de Clearpath Robotics. En simulation, les chercheurs ont fait varier deux paramètres critiques de la dynamique du robot : la position du centre de masse (jusqu’à 12,5 cm de décalage latéral) et la traînée rotationnelle (jusqu’à 20 unités). Trois métriques de performance ont été retenues : le temps normalisé pour atteindre la cible, la longueur du trajet comparée à la ligne droite et la consommation d’énergie.
Perturbations appliquées lors des essais sur le terrain : masse supplémentaire fixée à droite du centre de masse et filet flottant avec des bouteilles d'eau créant une traînée asymétrique. • Luis F. W. Batista et al.
Alors que le contrôleur MPC montrait une dégradation marquée des performances dès que le centre de masse s’éloignait, l’agent DRL conservait un taux de réussite proche de 100 %, une trajectoire stable et une efficacité énergétique robuste. Les trajectoires générées en simulation montrent clairement une tendance du MPC à dévier ou à revenir sur ses pas, tandis que le DRL maintient une ligne de progression régulière, même en présence de fortes perturbations.
Robot de terrain
Sur le terrain, deux types de perturbations ont été introduites : un poids de 4 kg placé à 38 cm du centre de masse et une traînée asymétrique créée par un filet contenant des bouteilles d’eau, fixée à 21 cm sur le côté. Les tests ont confirmé la supériorité du DRL. Le tableau de résultats ci-dessous montre que, comparé au MPC, l’agent DRL a moins souffert en termes de temps d’exécution et a même vu son écart de trajectoire diminuer (−34,9 % contre +11,2 % pour le MPC).
Dégradation en temps normalisé (Tnorm), déviation de la trajectoire (∆d) et augmentation de la consommation d’énergie (Eacc) relevées sur le terrain.
Cette amélioration s’explique par le ralentissement induit par les obstacles, qui permettait à l’agent d’anticiper ses rotations. De fait, cette correction active a augmenté la consommation d’énergie du DRL (+26,7 % contre +9 % pour le MPC).
Effets de bord
Malgré ces résultats positifs, les auteurs identifient plusieurs limites du DRL. En particulier, l’agent rencontre des difficultés lors des rotations sur place pour atteindre des cibles proches avec un angle d’approche important. Ces manœuvres, difficiles même pour un humain, sont rendues plus complexes par les limites physiques de l’ASV.
L’analyse fine du comportement révèle un facteur déterminant : la latence de commande introduite par le microcontrôleur embarqué. Une mesure à l’oscilloscope montre un délai de 2 secondes entre une commande maximale et sa réalisation. Ce phénomène, absent de la simulation initiale, explique en partie les écarts entre comportement simulé et comportement réel.
Vers un système autonome complet
Pour corriger ces écarts, les chercheurs envisagent d’intégrer ce délai dans le simulateur, ce qui permettrait à l’agent DRL de mieux anticiper l’inertie du système. Ils projettent également d’étendre les capacités du robot en ajoutant le suivi de trajectoire, la tenue de position et l’évitement d’obstacles.
Enfin, un système de perception visuelle sera intégré pour détecter les déchets à capturer et générer des objectifs dynamiques. Cela permettrait à l’ASV d’opérer de manière entièrement autonome, depuis la détection des déchets jusqu’à leur collecte, avec une adaptation en temps réel à l’environnement et aux perturbations physiques. L’implémentation complète est disponible en open source pour favoriser la recherche dans ce domaine.
Pour en savoir plus :
- Luis F. W. Batista et al., Evaluating Robustness of Deep Reinforcement Learning for Autonomous Surface Vehicle Control in Field Tests, Arxiv, 2025