Veo 3 à la loupe

Capture d’écran 2025-05-26 175551

Google a récemment dévoilé Veo 3, un modèle d’intelligence artificielle générative capable de créer des clips vidéo avec un son réaliste synchronisé – une avancée majeure face aux outils concurrents.

Présenté lors du Google I/O 2025, Veo 3 est le premier modèle de génération vidéo par IA capable de produire à la fois des images animées et une bande-son synchronisée. Ce nouvel outil, réservé aux abonnés de l’offre Gemini Ultra (250 $ par mois) et aux utilisateurs de Vertex AI, permet de créer en quelques minutes des clips haute définition (1080p) intégrant dialogues, bruitages et musique de fond. Une évolution marquante par rapport aux versions précédentes et aux autres modèles du marché, encore limités à des vidéos muettes.

Un son réaliste généré par l’IA

La nouveauté majeure de Veo 3 est la génération automatique d’audio – une première. Le modèle peut inventer des dialogues, ajouter des sons d’ambiance ou faire parler des personnages animés, sans consigne explicite. Dans un exemple rapporté par The Verge, une policière ordonne de « libérer la rue » alors que le prompt ne mentionnait aucun dialogue. Le rendu vocal est jugé convaincant, y compris pour des formats comme les journaux télévisés fictifs ou les dessins animés pour enfants.

Google a entraîné Veo 3 sur des paires image/son pour produire une piste audio cohérente. Contrairement aux tentatives de clonage vocal, le modèle ne permet pas de recréer la voix d’une personne réelle ni de l’utiliser dans un scénario ciblé. Des garde-fous empêchent la génération de scènes violentes, politiques ou humiliantes mettant en scène des figures identifiables.

Cohérence accrue dans l’image

Au-delà du son, Veo 3 améliore aussi la cohérence visuelle. Le modèle comprend des instructions complexes (types de plans, actions enchaînées) et gère mieux les mouvements de caméra, la profondeur de champ ou la continuité d’un plan à l’autre. Les scènes peuvent durer jusqu’à une minute, en 1080p. L’interface Flow permet d’assembler plusieurs segments de 8 secondes avec des effets de transition et une gestion fine de la caméra virtuelle.

Le modèle accepte du texte, mais aussi des images ou vidéos comme référence. Il est particulièrement efficace pour générer des scènes stylisées, physiques (objets en mouvement, interactions entre personnages) ou basées sur des images d’archives. En revanche, les visages très proches restent perfectibles, et les prompts trop précis peuvent entraîner des résultats incohérents.

Un entraînement très complet

Le modèle utilise une architecture de diffusion latente, qui est la norme pour les modèles génératifs modernes d'image, d'audio et de vidéo. Il a été entraîné sur des TPU de Google, avec des données audio, vidéo et image. Ces données ont été annotées avec des légendes textuelles "à différents niveaux de détail, en utilisant plusieurs modèles Gemini", précise la scorecard du modèle. Les données ont été filtrées pour "supprimer les légendes dangereuses et les informations personnellement identifiables." Les vidéos d'entraînement ont également été filtrées pour "diverses mesures de conformité et de sécurité et pour la qualité."

Deux grandes catégories de risques liés au contenu ont été identifiées : "l'utilisation abusive intentionnelle du modèle par des adversaires et les modes de défaillance involontaires du modèle par une utilisation bénigne." En conséquence, Google limite l’usage de Veo 3. Certaines requêtes sont bloquées d’office, comme les vidéos mettant en scène des dirigeants politiques dans des situations fictives sensibles. L’ajout de visages réels ou de voix spécifiques est impossible. De plus, les vidéos générées portent un filigrane numérique invisible via la technologie SynthID, pour faciliter leur identification.

Veo 3 s’inscrit ainsi dans une logique de création assistée encadrée. S’il n’atteint pas encore les standards du cinéma, il représente un bond technologique par rapport aux modèles précédents. La combinaison d’images et de sons générés automatiquement ouvre la voie à une nouvelle génération de contenus synthétiques, destinés autant aux professionnels qu’aux créateurs amateurs – pourvu qu’ils en aient les moyens.

Sora, Runway, Pika : des concurrents encore muets

Google se démarque avec l’audio intégré, une première. Sora, le modèle vidéo d’OpenAI, permet de créer des vidéos jusqu’à 60 secondes avec une bonne maîtrise des enchaînements visuels, mais sans son. Il est utilisé dans ChatGPT, mais reste réservé aux utilisateurs payants. OpenAI met l’accent sur la « grammaire cinématographique », avec des changements d’angles ou de mise au point automatiques, mais reconnaît encore des limites physiques (objets qui flottent, mouvements erratiques).

Runway Gen-4, lancé en mars 2025, mise sur la fidélité au prompt et la cohérence narrative. Il génère des clips de 5 à 10 secondes, avec un bon rendu des personnages et des styles visuels variés. Son point fort est la continuité entre plusieurs scènes, grâce au maintien des mêmes décors et objets. Pika Labs, de son côté, cible les créateurs de contenus courts pour les réseaux sociaux. Son outil permet de produire des vidéos de 10 secondes, avec des options de stylisation et de montage, mais sans piste audio générée.

Pour en savoir plus :

L’essentiel