Former un robot à se déplacer dans un environnement peu structuré, ouvert, voire inconnu, reste un défi majeur de la robotique. Les méthodes classiques, basées sur la cartographie et la localisation, accumulent les erreurs en conditions dynamiques. Quant aux approches d’apprentissage, elles peinent à passer à l’échelle faute de données suffisantes.
L’architecture NavDP du Shanghai AI Lab. • Wenzhe Cai et al.
Un article prépublié par une équipe du Shanghai AI Lab, un des principaux instituts de recherche du pays, créé en 2020, vient de présenter NavDP, une architecture end-to-end de navigation robotique conçue pour être formée exclusivement en simulation, puis transférée sans ajustement à des plateformes physiques variées. Elle repose sur deux modules clés : un générateur de trajectoires fondé sur la diffusion, et un "critique" chargé d’évaluer la sécurité des propositions.
Génération et sélection de trajectoires
NavDP reçoit une observation RGB-D (image couleur et profondeur) et un objectif de navigation (coordonnée, image cible ou trajectoire projetée). À partir de ces entrées, un modèle transformer encode la scène et génère un ensemble de trajectoires futures, en prédisant des séquences de déplacements relatifs.
Ces trajectoires candidates sont ensuite analysées par un module “critique”, entraîné à prédire leur sécurité en fonction de la distance aux obstacles. Ce double mécanisme – production puis évaluation – permet de garantir que la trajectoire retenue évite les collisions, même en l’absence de carte globale. Le système est compatible avec différents types de robots (à roues, quadrupèdes ou humanoïdes) et s’adapte aux variations de gabarit ou de champ de vision.
Une base de données simulée à grande échelle
Pour entraîner NavDP, les chercheurs ont conçu un pipeline de génération automatique de trajectoires en simulation. En partant de scènes issues de bibliothèques 3D (Matterport3D, 3D-Front), ils ont simulé plus de 56 000 trajets dans 1244 environnements différents, représentant plus de 360 km de déplacement. À chaque étape, les vues caméra, les cartes de distance aux obstacles et les trajectoires ont été enregistrées.
La génération se fait à grande vitesse (2500 trajectoires par jour et par GPU), avec une forte variabilité introduite dans les textures, les lumières, les angles de caméra et les points de départ. Ce jeu de données surpasse de loin les bases existantes en volume, diversité et précision, sans recourir à des démonstrations humaines.
L’architecture NavDP
Le cœur du modèle repose sur un policy transformer, commun aux deux têtes (diffusion et critique). L’entrée se compose de 512 tokens (RGB-D et objectif de navigation), compressés en 16 tokens fusionnés. Un autoencodeur de type DDPM prédit ensuite les déplacements futurs.
La tête critique, quant à elle, reçoit les mêmes tokens et une trajectoire candidate. Elle attribue un score fondé sur la proximité aux obstacles, grâce à des données simulées de carte de distance (ESDF). Le modèle est formé à générer et classer les trajectoires selon ces critères, en utilisant une perte combinée sur l’erreur de génération et la valeur de sécurité.
Des performances convaincantes
NavDP a été testé dans six scénarios : trois entièrement simulés (hôpital, bureau, entrepôt), et trois reproduits à partir d’environnements réels via Gaussian Splatting. Les performances sont évaluées sur deux tâches : exploration sans but, et navigation vers un point donné.
Les résultats montrent que NavDP surpasse les approches concurrentes, y compris les plus récentes comme ViPlanner ou NoMad. Sur les plateformes Unitree Go2, Dingo et Galaxea R1, il atteint des taux de réussite de 70 % à 83 % selon les configurations, avec des gains sensibles en sécurité et en efficacité de planification. Il fonctionne en temps réel (>10 Hz) sur un GPU mobile, et permet des vitesses allant jusqu’à 2 m/s.
Un transfert vers le réel efficace
L’étude montre que NavDP peut être déployé sans ajustement sur des robots physiques, y compris dans des environnements complexes (espaces publics, éclairage variable, obstacles mobiles). Les tests en conditions réelles révèlent un taux de réussite supérieur à 80 % avec seulement 27 % de données issues de scènes reconstruites depuis le monde réel.
Ce résultat est obtenu sans dégradation de la capacité de généralisation. Les auteurs identifient un équilibre à trouver entre la diversité des données simulées et la précision contextuelle des données dites « real-to-sim ». Une proportion trop élevée de ces dernières réduit la robustesse hors domaine.
Trois leviers pour la réussite
Trois facteurs expliquent les performances du modèle. D’abord, l’introduction d’un critère explicite de sécurité lors de l’inférence permet d’éviter les trajectoires risquées. Ensuite, la formation multi-tâches avec différents types d’objectifs (coordonnées, images, trajectoires, exploration libre) renforce la polyvalence du système. Enfin, l’ajout d’un petit corpus d’environnements réels reconstruits améliore sensiblement l’adaptation finale.
Cette combinaison permet à NavDP de fonctionner sans carte globale, en se contentant d’une image RGB-D à chaque étape. Le modèle peut ainsi anticiper les dangers, planifier une trajectoire fluide et s’adapter à des morphologies robotiques variées, tout en conservant un temps de réponse compatible avec des scénarios dynamiques.
Pour en savoir plus :
- Wenzhe Cai et al., NavDP: Learning Sim-to-Real Navigation Diffusion Policy with Privileged Information Guidance, Arxiv, 2025