Le Llama qui récitait Harry Potter

Un Llama à Poudlard • Qant, M. de R. avec GPT-4o

Le modèle Llama 3.1 de Meta est capable de reproduire 42 % du texte du premier tome de la saga Harry Potter. L’article de recherche qui le montre apporte de l’eau au moulin des auteurs qui font des procès à l’IA.

  • Le modèle Llama 3.1 70B de Meta peut reproduire mot pour mot 42 % du texte du roman de J.K. Rowling Harry Potter à l'école des sorciers, à partir d’un simple prompt de 50 tokens.
  • Cette “mémorisation” varie fortement d’un modèle à l’autre et d’une œuvre à l’autre, comme le montre une étude menée par des chercheurs de Stanford, Cornell et West Virginia University, qui a testé cinq modèles à poids ouverts.
  • L'étude repose sur une méthode probabiliste, considérant qu’un passage est "mémorisé" si la probabilité de générer une séquence exacte de 50 tokens dépasse 50 %, soit une précision moyenne de 98,5 % par token.
  • À SURVEILLER : L'impact sur le droit d’auteur. Ces résultats, s’ils se multiplient et se confirment, pourraient remettre en question la légalité des modèles et peser sur les procès en cours, où les créateurs de modèles se réclament d’une exception au copyright, le fair use (une exception au droit d’auteur américain qui permet l’utilisation limitée d’œuvres protégées sans autorisation, à des fins comme la critique, l’enseignement ou la recherche). En début de mois, deux nouvelles procédures judiciaires visant OpenAI et Anthropic sont venues s'ajouter à la longue liste des procès intentés aux géants de l'IA.

L’essentiel