- Près d’un million de livres du domaine public, issus du programme Google Books, seront intégrés dans une base de données créée par l’Institutional Data Initiative (IDI) de Harvard, avec pour objectif de rendre ces ressources accessibles aux chercheurs, start-ups et laboratoires souhaitant développer des modèles d’IA.
- Microsoft et OpenAI financent le projet; qui regroupe des œuvres variées, allant des classiques de Shakespeare, Dickens et Dante, aux textes spécialisés comme des dictionnaires gallois et des manuels scientifiques.
- L’Institutional Data Initiative a créé, à partir de 2015, une base de données publique sur la jurisprudence américaine, le Caselaw Access Project, qui sert désormais à l’entraînement de modèles juridiques d’IA.
- À SURVEILLER : Allô, Villers-Cotterêts ? Harvard a un grand précurseur. L’Islande a lancé, depuis une vingtaine d’années, le Language Technology Programme for Icelandic, qui a notamment créé des datasets d’entraînement pour les modèles d’IA, afin de les aider à comprendre l’islandais. À quand la France ?
La bibliothèque d’Harvard pour entraîner l’IA

Harvard crée des bases pour offrir des données de qualités aux modèles d’IA.