Le vrai coût de GPT-4o

Angela Huyue Zhang, de l'université de Hong Kong Source : Angelazhang.net

Le dernier outil d'intelligence artificielle d'OpenAI, GPT-4o, s'appuie sur une importante base d'utilisateurs attirés par la promesse de gratuité du service. OpenAI collecte ainsi des quantités massives de données multimodales et les utilise pour entraîner ses modèles d'intelligence artificielle. Les détenteurs de droits d'auteur n'ont que peu de recours.

Par Angela Huyue Zhang (université de Hong Kong) et S. Alex Yang (London Business School).

Avec le lancement de GPT-4o (lire Qant du 14 mai), OpenAI a une fois de plus démontré qu'elle était l'entreprise d'intelligence artificielle la plus innovante au monde. Ce nouvel outil d'IA multimodale - qui intègre de manière transparente des capacités textuelles, vocales et visuelles - est nettement plus rapide que les modèles précédents, ce qui améliore considérablement l'expérience de l'utilisateur. Mais la caractéristique la plus attrayante de GPT-4o est sans doute sa gratuité, du moins en apparence.

Il n'est pas nécessaire de payer un abonnement pour utiliser GPT-4o. Au lieu de cela, les utilisateurs paient avec leurs données. Comme un trou noir, GPT-4o augmente sa masse en aspirant tout ce qui s'en approche de trop près, accumulant chaque information que les utilisateurs saisissent, que ce soit sous forme de texte, de fichiers audio ou d'images.

La faim de GPT-4o

GPT-4o engloutit non seulement les informations des utilisateurs, mais aussi les données de tiers révélées lors des interactions avec le service d'IA. Supposons que vous cherchiez un résumé du contenu d'un article du New York Times. Vous faites une capture d'écran et la partagez avec GPT-4o, qui lit la capture d'écran et génère le résumé demandé en quelques secondes. Pour vous, l'interaction est terminée. Mais OpenAI est désormais en possession de tous les éléments protégés par le droit d'auteur de la capture d'écran que vous avez fournie, et elle peut utiliser ces informations pour entraîner et améliorer son modèle.

OpenAI n'est pas seule. Au cours de l'année écoulée, de nombreuses entreprises, dont Microsoft, Meta, Google et X (anciennement Twitter), ont discrètement mis à jour leurs politiques de confidentialité d'une manière qui leur permet potentiellement de collecter des données sur les utilisateurs et de les utiliser pour former des modèles d'IA générative. Bien que les grandes entreprises d'IA aient déjà fait l'objet de nombreuses poursuites judiciaires aux États-Unis en raison de leur utilisation non autorisée de contenus protégés par le droit d'auteur à cette fin, leur appétit pour les données reste plus vorace que jamais. Après tout, plus elles en obtiennent, plus elles peuvent améliorer leurs modèles.

Les données, une ressource pas si abondante

Le problème pour les grandes entreprises d'IA est que les données d'entraînement de haute qualité sont devenues de plus en plus rares. Fin 2021, OpenAI avait tellement besoin de données qu'elle aurait transcrit plus d'un million d'heures de vidéos YouTube, violant ainsi les règles de la plateforme. (Google, la société mère de YouTube, n'a pas intenté d'action en justice contre OpenAI, peut-être pour éviter d'avoir à répondre de sa propre collecte de vidéos YouTube, dont les droits d'auteur appartiennent à leurs créateurs).

Avec GPT-4o, OpenAI tente une approche différente, en s'appuyant sur une base d'utilisateurs importante et croissante - attirée par la promesse d'un service gratuit - pour collecter des quantités massives de données multimodales. Cette approche reflète un modèle commercial bien connu des plateformes technologiques : ne rien faire payer aux utilisateurs pour les services, des moteurs de recherche aux médias sociaux, tout en profitant du suivi des applications et de la collecte de données - ce que Shoshana Zuboff, professeur à Harvard, a fameusement appelé le "capitalisme de surveillance".

Le parcours du combattant de l’utilisateur

Certes, les utilisateurs peuvent interdire à OpenAI d'utiliser leurs "chats" avec GPT-4o pour l'entraînement des modèles. Mais la façon la plus évidente de le faire – sur la page des paramètres de ChatGPT –- désactive automatiquement l'historique des conversations de l'utilisateur, ce qui lui fait perdre l'accès à ses conversations passées. Il n'y a aucune raison de lier ces deux fonctions, si ce n'est pour décourager les utilisateurs de retirer leurs données de l’entraînement des modèles.

Pour ce faire, sans perdre l'historique de leurs conversations, les utilisateurs doivent d'abord chercher s'il existe un autre moyen, car OpenAI ne met en avant que la première option. Ils doivent ensuite naviguer longuement sur le portail de confidentialité d'OpenAI.

Copie, copie pas ?

Les résultats générés par l'IA ressemblent rarement aux données qui les ont alimentés, ce qui fait qu'il est difficile pour les titulaires de droits d'auteur de savoir avec certitude si leur contenu a été utilisé dans l'entraînement du modèle. En outre, une entreprise pourrait être en mesure de prétendre à l'ignorance : les utilisateurs ont fourni le contenu au cours des interactions avec ses services, alors comment l'entreprise peut-elle savoir d'où ils l'ont obtenu ?

Les créateurs et les éditeurs ont eu recours à un certain nombre de méthodes pour éviter que leur contenu ne soit aspiré dans le trou noir de l'entraînement à l'IA. Certains ont mis en place des solutions technologiques pour bloquer le scraping de données. D'autres ont mis à jour leurs conditions de service afin d'interdire l'utilisation de leur contenu pour l'entraînement de l'IA. Le mois dernier, Sony Music, l'une des plus grandes maisons de disques au monde, a envoyé des lettres à plus de 700 entreprises d'IA générative et plateformes de streaming, les avertissant de ne pas utiliser son contenu sans autorisation explicite.

Mais tant qu'OpenAI pourra exploiter l'échappatoire "fourni par l'utilisateur", ces efforts seront vains. Le seul moyen crédible de résoudre le problème d'externalité de GPT-4o est que les régulateurs limitent la capacité des entreprises d'IA à collecter et à utiliser les données partagées par leurs utilisateurs.

Pour en savoir plus :

Angela Huyue Zhang, professeur agrégé de droit et directrice du Philip K.H. Wong Center for Chinese Law à l'université de Hong Kong, est l'auteur de High Wire : How China Regulates Big Tech and Governs its Economy (Oxford University Press, 2024). Elle rejoindra bientôt la faculté de l'USC Gould School of Law.

S. Alex Yang est professeur de sciences de gestion et d'opérations à la London Business School.

Ce texte a initialement été publié en anglais sur Project Syndicate le 3 juin, traduction : Qant.


L’essentiel