La polémique sur les données d’entraînement de l’IA se concentre sur l’IA

“Le robot s’empare de la caméra” (Qant, M. de R. avec Midjourney)

Google et OpenAI sont accusés d’avoir utilisé des vidéos YouTube pour former leurs modèles d’IA, quelques semaines après les interrogations autour du futur modèle Sora de la firme de Sam Altman.

Alors que l’IA, et particulièrement les modèles d’OpenAI, se répand dans toutes les entreprises (lire ci-dessus, OpenAI, colosse aux pieds d’argile, et ci-dessous, Le monde du travail au rendez-vous de l’IA), les problèmes de droit d’auteur sur les jeux de données d’entraînement se font de plus en plus pressants.

Une longue enquête du New York Times révèle qu’OpenAI a utilisé plus d’un million d’heures de dialogues sur Youtube pour entraîner GPT-4 en 2022 – avant que Google ne change les conditions d’utilisation de la plate-forme pour ses propres besoins et probablement en violation du droit d’auteur. Whisper, le modèle de transcription d’OpenAI, aurait été utilisé pour la transcription.

Le mois dernier, plusieurs voix se sont interrogées sur les vidéos utilisées pour entraîner Sora, le futur modèle text-to-video d’OpenAI. Le CEO de YouTube Neal Mohan a rappelé la semaine dernière que le téléchargement de transcriptions ou d'extraits de vidéos publiées sur la plateforme constituait "une violation flagrante des conditions d'utilisation", alors que la CTO d'OpenAI Mira Murati a déclaré dans une interview auprès du Wall Street Journal "ne pas savoir" si des vidéos YouTube ont servi à l'entraînement de Sora, sans convaincre grand monde. 

Si YouTube n'a pas encore annoncé déposer plainte contre OpenAI, la société de Sam Altman est déjà presque habituée des procès pour atteinte aux droits d'auteurs. En septembre dernier, l'entreprise avait par exemple été attaquée par l'Authors Guild, un syndicat américain regroupant 9 000 romanciers et écrivains qui l'accuse d'avoir enfreint les règles américaines du Copyright en utilisant des livres pour former ChatGPT. Mi-mars, une vieille connaissance d'OpenAI, l'Autorité italienne de protection des données, a lancé une enquête sur Sora, et a demandé une clarification sur les données collectées pour entraîner l'outil, notamment si ces données sont personnelles et si elles incluent des catégories sensibles. 

Google, Meta et les autres

Les conditions d'utilisation de Google et de Youtube interdisent le scrapping ou le téléchargement non autorisé de contenu. Cependant, Google a confirmé l'utilisation de certains contenus YouTube, en accord avec les créateurs, pour l'entraînement de ses modèles. Après avoir modifié ses conditions d’utilisation l’an dernier, le groupe peut se prévaloir des fichiers Google Docs rendus publics, des critiques de magasins sur Google Maps et de toute sorte de contenu en ligne.

Quant à Meta, le New York Times rend compte de réunions de haut niveau où les dirigeants du groupe cherchent des manières de contourner le droit d’auteur et les restrictions sur l’utilisation des données des utilisateurs héritées du scandale Cambridge Analitica en 2016. Celui-ci semble néanmoins peser encore lourdement sur les décisions du groupe, qui a même envisagé de racheter Simon & Schuster, une grande maison d’édition américaine, pour se donner le droit d’utiliser des textes longs pour l’entraînement de ses modèles.

Il y a encore un espoir pour les catalogues des éditeurs.

Pour en savoir plus :

L’essentiel