Créer un cerveau compact pour les voitures autonomes

Un cerveau dans la voiture autonome. • Qant avec GPT-4o

Des chercheurs proposent un nouveau modèle d’IA capable d’unifier raisonnement et planification dans la conduite autonome, en s’appuyant sur un LLM. L’objectif : concilier efficacité, interprétabilité et performance en boucle fermée. Et battre le cadre LMDrive.

Les modèles actuels de conduite autonome end-to-end (E2E), qui transforment directement les capteurs en actions sans modules intermédiaires, souffrent d’un défaut majeur : leur manque de transparence. S’ils peuvent conduire correctement, ils ne savent pas expliquer leurs décisions. En parallèle, les modèles de langage de grande taille (LLM) ont démontré des capacités remarquables, mais ils sont trop lourds pour être déployés en conditions réelles sur un véhicule.

L’étude menée par l’équipe de Wenru Liu, Pei Liu et Jun Ma, de l’université des sciences et technologies de Hong Kong, propose une alternative. Elle introduit DSDrive, une architecture légère qui s’appuie sur une version compacte d’un LLM distillé à partir d’un modèle visuel-linguistique plus grand. Ce système combine raisonnement explicite, planification de trajectoire et inférence rapide dans un cadre unifié.

Un double objectif : expliquer et conduire

DSDrive repose sur un mécanisme à deux “têtes” : le raisonnement et la planification. Les deux partagent le même objectif, prédire les points de passage à venir (waypoints), mais à partir de modalités différentes. Le raisonnement suit une logique « penser puis répondre », tandis que la planification s’exprime sous forme de coordonnées numériques à suivre.

Les auteurs ont conçu un jeu de données structuré, où chaque scène de conduite est accompagnée d’instructions textuelles, d’images, de questions, de réponses argumentées et des waypoints associés. Le modèle apprend ainsi à traduire une perception multimodale en trajectoire concrète, tout en produisant une explication lisible de ses décisions.

De la distillation à la coordination

Le cœur du système repose sur une stratégie de distillation : un modèle de vision-langage de grande taille (Qwen2.5-VL-max) est utilisé pour produire les raisonnements détaillés, qui servent ensuite de référence au modèle compact (Llama-1B). En s’entraînant à imiter ces réponses tout en apprenant à planifier, ce dernier acquiert des compétences avancées à moindre coût.

Pour garantir la cohérence entre les deux tâches, l’équipe a mis en place un module de coordination à “double tête” piloté par les waypoints. Les réponses textuelles et les trajectoires sont entraînées conjointement, dans une logique d’alignement explicite. Cette structure améliore l’interprétabilité sans sacrifier la précision du pilotage.

Des résultats compétitifs en boucle fermée

Le processus explicite de raisonnement et de réponse pour des scénarios de conduite représentatifs du simulateur Carla • Wenru Liu et al.

DSDrive a été testé dans l’environnement de simulation Carla, selon trois scénarios (long, court et très court). Il est comparé à LMDrive, un modèle de référence utilisant soit la même base Llama-1B, soit une version plus lourde (Llama-7B).

Les résultats montrent que DSDrive dépasse systématiquement LMDrive-1B, et rivalise dans plusieurs cas avec LMDrive-7B. Dans les scénarios courts, il atteint 76,2 % de réussite en parcours (RC) contre 52,9 % pour LMDrive-7B, avec un score global de conduite (DS) de 62,1 contre 45,0. Il affiche aussi des taux d’infractions plus bas ou équivalents, sauf sur le respect des lignes, où des améliorations restent nécessaires.

Capable d’expliquer ses décisions

Au-delà des métriques, l’étude met en avant la capacité du modèle à produire des raisonnements explicites dans des environnements variés : intersections, feux tricolores, embouteillages ou virages serrés. DSDrive identifie les obstacles, décrit les feux, justifie ses arrêts et détaille ses changements de direction.

Les tests montrent que ses réponses sont plus précises et plus complètes que celles d’un modèle de taille supérieure, non entraîné à raisonner (Qwen2.5-VL-7B). Notamment, DSDrive intègre systématiquement les waypoints dans ses réponses textuelles, renforçant la cohérence entre ce qu’il prévoit et ce qu’il exécute.

Un modèle léger et robuste

Avec une taille réduite, DSDrive reste compatible avec des déploiements embarqués. Son temps d’inférence est équivalent à celui de LMDrive-1B (0,05 s), et sa consommation mémoire (8082 Mo) reste très inférieure à celle de LMDrive-7B (14,2 Go). Il peut donc fonctionner sur des plateformes embarquées comme les systèmes Nvidia Orin, ouvrant la voie à des applications concrètes.

L’étude conclut que l’intégration explicite du raisonnement dans un modèle compact permet d’améliorer à la fois la transparence, la robustesse et l’efficacité du pilotage autonome. Elle plaide pour un développement parallèle du raisonnement et de la planification, au lieu de les traiter comme des tâches séparées ou séquentielles. À terme, cette approche pourrait servir de base à des systèmes embarqués fiables, explicables et économes en ressources.

Pour en savoir plus :

L’essentiel