Après AI Overviews, Google Leaks : sale temps pour le Search

“Fuite de données chez Google” (Qant, M. de R. avec Midjourney)

La fuite de 2 500 documents internes affaiblit la recherche sur Internet, au cœur de l’activité de Google depuis sa création. Le déploiement de la recherche générative semble noyé sous les polémiques. En attendant, peut-être, le coup fatal du jugement antitrust cet été.

La fuite la semaine dernière de 2500 documents internes à Google révèle progressivement des informations significatives, sinon sur le fonctionnement précis de l'algorithme de recherche sur Internet, du moins sur des pratiques que l'entreprise habituellement garde secrètes.

Traditionnellement, le classement des contenus par Google reste une "boîte noire", et les opérateurs de sites web se fient scrupuleusement aux déclarations publiques de Google pour optimiser leur visibilité en ligne, ce qui peut avoir un impact financier significatif. Les documents révèlent que les représentants de Google ont induit le public en erreur sur la manière dont le géant évalue et classe le contenu pour son moteur de recherche.

La guerre du clic

Un point souvent nié par Google est que les clics des utilisateurs influencent le classement des sites. Cependant, les documents divulgués mentionnent plusieurs types de clics et indiquent qu'ils jouent un rôle dans le classement des pages. Le procès antitrust dont on attend le jugement (lire Qant du 14 mai et du 14 septembre 2023) avait déjà montré l'existence d’un facteur de classement, appelé Navboost, qui utilise les clics des utilisateurs pour améliorer le contenu dans les résultats de recherche. Il n'est pas précisé dans les documents comment les différents attributs sont pondérés. Les documents mentionnent un identifiant pour les "petits sites personnels" et une minoration pour les critiques de produits, mais ces attributs pourraient n’avoir été utilisés qu’à un moment donné ou ne l’avoir jamais été.

Une autre découverte concerne l'utilisation des données de Chrome dans les classements de recherche de Google. Les représentants de Google ont toujours déclaré ne pas utiliser les données de Chrome pour le classement des réponses, mais les documents divulgués suggèrent le contraire. Par exemple, une section mentionne "chrome_trans_clicks" comme un facteur influençant les liens apparaissant sous la page principale dans les résultats de recherche.

Au total, les documents révèlent plus de 14 000 attributs, qu’il faudra des semaines pour analyser. Ils mentionnent également des "Twiddlers", ou des ajustements de classement déployés en dehors des mises à jour majeures, pour promouvoir ou rétrograder du contenu selon certains critères. Des éléments tels que l'identité de l'auteur et l'autorité des sites web sont aussi pris en compte.

Google dans un corner

La publication de ces documents a d'abord été faite par les experts en SEO Rand Fishkin et Mike King, qui ont également fourni des analyses accompagnant ces révélations. Les documents API divulgués contiennent des référentiels remplis d'informations sur les données collectées par Google et comment elles pourraient informer le classement des pages web. Google a tout d’abord esquivé les questions sur l'authenticité des documents, avant d’en confirmer leur véracité.

Un porte-parole de Google, Davis Thompson, a mis en garde contre les suppositions erronées basées sur des informations hors contexte, obsolètes ou incomplètes. Il a souligné que Google partage des informations détaillées sur le fonctionnement de Search et les types de facteurs pris en compte par leurs systèmes tout en cherchant à protéger les résultats de toute manipulation. Mais le problème mérite d’être vu à la lumière de l’IA.

Le mystère AI Overviews

Car Google se serait bien passé de cette fuite inopinée, tant l’entreprise doit déjà faire face au lancement chaotique de la fonctionnalité AI Overviews. Le mois dernier, la recherche générative de Google a en effet été victime de nombreuses hallucinations, conseillant par exemple à des utilisateurs d'ajouter de la colle sur une pizza pour que le fromage tienne (lire Qant du 27 mai). Face à la multiplication des moqueries, Google a été obligé de reconnaître ces erreurs, attribuées à des "requêtes peu fréquentes", rappelant que l'outil était "encore expérimental".

Mais les atermoiements d'Overviews ne semblent être un sujet mineur pour Google qui doit par ailleurs faire face à un procès antitrust qui le poursuit depuis plusieurs mois, dont les audiences sont closes et pour lequel le juge devrait rendre son verdict cet été (lire Qant du 14 mai et du 14 septembre 2023). Le seul autre grand procès antitrust dans la tech avait conduit, en 1998, Microsoft à devoir séparer son navigateur de son système d’exploitation. Cela avait favorisé l’émergence d’une start-up inconnue, Google.

Tout porte à penser que Google se prépare à une hypothèse de ce genre.

Pour en savoir plus :

L’essentiel