Quand les géants se disputent la caméra

"L'IA derrière la caméra" (Qant, M. de R. avec Midjourney)

La présentation du modèle text-to-video Veo par Google ce mardi sonne comme la dernière illustration d’une explosion de la vidéo par IA, tant par les modèles que par les initiatives créatives.

A droite, Veo, le nouveau modèle d'IA dédié à la génération de vidéos de Google. A gauche, Sora, présenté par OpenAI cet hiver (lire Qant du 15 mai et du 19 février). Entre les deux, Adobe, Runway ML, et tout un peloton de start-up. Le monde du cinéma jouera les arbitres, non sans prendre de coups.

Veo promet de produire des vidéos de haute qualité en 1080p à partir de simples prompts textuels, d'images ou de vidéos. Selon Google, le modèle possède une compréhension avancée du langage cinématographique, ce qui lui permet de répondre à des termes cinématographiques spécifiques comme « timelapse » ou « prises de vue aériennes d’un paysage ». Les utilisateurs peuvent ainsi guider la production selon leurs besoins créatifs, et le modèle promet des vidéos plus cohérentes et réalistes, avec des mouvements fluides pour les personnes, les animaux et les objets. Google prévoit de proposer Veo aux créateurs de YouTube Shorts et d'en étendre les capacités de Veo pour produire des storyboards et des scènes plus longues.

Dernier né

Veo est le dernier-né d'une série de modèles de génération vidéo développés par Google, qui incluent Phenaki et Imagen Video, ainsi que le modèle Lumiere présenté en janvier dernier (lire Qant du 24 janvier). Si chacun de ces modèles a apporté des améliorations progressives en termes de compréhension vidéo et de rendu, Veo marque une avancée significative grâce à sa capacité à simuler des physiques du monde réel et à produire des sorties en haute définition.

Il arrive sur un marché en train de se structurer. Début mai, le musicien Washed Out a par exemple publié le premier clip réalisé par Paul Trillo avec Sora d’OpenAI.

OpenAI prépare progressivement le terrain pour la commercialisation de Sora, en le présentant aux grands studios hollywoodiens : Paramount, Warner Brothers Discovery, Universal…Elle y ajoute des fonctionnalités audio et d’inpainting. Mi-avril, Adobe a annoncé l’intégration du modèle dans son applicationsde montage vidéo Adobe Premiere Pro.

La concurrence entre Google et OpenAI semble donc destinée à s'intensifier, chacun cherchant à capter l'attention des professionnels de l'audiovisuel et à intégrer plus profondément l'IA dans les processus de création.

Cela bousculera de nombreuses start-up, qui ont commencé à structurer le marché. La principale est certainement l’américaine Runway, qui a réuni au total 236,5 millions de dollars. Son dernier tour de table a été mené par… Google. La maturité atteinte par certains gagnants de son AI Film Festival, début mai, est plutôt saisissante.

Plébiscité par l’industrie de la publicité, son rival Pika Labs a levé 55 millions de dollars, notamment auprès d’Adam D’Angelo, créateur de Poe et administrateur d’OpenAI. Son modèle se distingue par la qualité de l’inpainting, qui permet d’animer ou de remplacer des parties d’image. Son alliance avec ElevenLabs, le mois dernier, lui permettra peut-être de rivaliser avec les grands modèles multimodaux de Google et OpenAI, mais sa plus émouvante création à ce jour est un anime :

On peut encore citer les britanniques Synthesia, qui a levé à l’été dernier 90 millions de dollars en série C, et Stability AI, dont le modèle open source Stable Video a déjà généré des plates-formes qui veulent l’optimiser, Motion by Leonardo et Animate by NightCafe, ainsi qu’une multitude start-up, financées ou non.

Il est possible que l’entrée en scène des grands déchaîne sur elles le même effet destructeur que l’arrivée de ChatGPT sur la première génération de start-up qui proposaient des applications d’IA, comme Jasper AI. Certaines réussiront à pivoter, comme l’a fait Quillbot dans l’edtech. Mais pas toutes.

Quant à l’industrie du cinéma, la Brookings Institution a publié hier le premier volet d’une note très pessimiste. Le premier think tank au monde considère que les modèles comme Sora et Veo permettront d’accélérer le remplacement des décors dans les studios par des arrière-plans virtuels et qu’ils pourront même se substituer à une partie des acteurs. Au total, 100 000 des 550 000 emplois dans l’audiovisuel aux États-Unis seraient menacés, selon une étude commandée par les syndicats après la grève de l’an dernier (lire Qant du 10 novembre 2023 et du 11 août 2023).

Une nouvelle grève serait en préparation.

Pour en savoir plus :

L’essentiel