Entre protection des données et droit d’auteur, les modèles d’IA pris dans l’étau

Des procès à tout va. • Qant, M. de R. avec GPT-4o

OpenAI et Anthropic font face à deux procédures judiciaires distinctes aux États-Unis, l'une sur la confidentialité des utilisateurs de ChatGPT, l'autre sur l'utilisation non autorisée de données Reddit à des fins d'entraînement de modèles d'intelligence artificielle. Un conflit potentiel entre droit des données et copyright se dessine.

  • OpenAI conteste une ordonnance judiciaire, prise dans le cadre d’un litige sur le droit d’auteur avec plusieurs médias, dont le New York Times, qui l’oblige à conserver l’ensemble des historiques de conversations ChatGPT, y compris les chats supprimés ou effectués via API.
  • L’entreprise juge cette injonction « prématurée et sans fondement », estimant qu’elle contrevient aux choix de confidentialité de centaines de millions d’utilisateurs et aux engagements contractuels pris avec eux.
  • Des inquiétudes se sont multipliées sur les réseaux sociaux après la publication de l’ordonnance : consultants, développeurs et professionnels de la cybersécurité ont dénoncé un risque de sécurité et conseillé de restreindre les échanges sensibles avec ChatGPT ou l’API d’OpenAI.
  • En parallèle, Reddit a attaqué en justice Anthropic, l’accusant d’avoir entraîné ses modèles sur des données issues de la plateforme sans autorisation, contrairement à OpenAI et Google, qui disposent d’accords de licence.
  • Reddit affirme qu’Anthropic a ignoré son fichier robots.txt et effectué plus de 100 000 extractions de données en 2024, malgré une interdiction explicite ; Anthropic a rejeté ces accusations.
  • EN FILIGRANE : Une simple question de prix. Fin mai, le New York Times a signé un accord avec Amazon pour l'utilisation de ses contenus dans les produits d'IA de l'entreprise, alors que la procédure l'opposant à OpenAI et Microsoft (lire Qant du 8 janvier 2024) est toujours en cours.
  • À SURVEILLER : La protection des données utilisateurs et le copyright sur les données d’entraînement. Les deux affaires pourraient bien redéfinir, aux États-Unis, les équilibres entre respect de la vie privée, obligations légales de conservation de données et accès aux contenus d’entraînement pour les modèles d’intelligence artificielle.

L’essentiel