Une énorme fuite d'un document sur Google Search révèle les rouages de son algorithme de classement

Certains détails remettent en question l'exactitude des déclarations publiques de Google

Le 29 mai 2024 à 20:04, par Stéphane le calme

71PARTAGES

mise à jour du 30/05/2024 : Google confirme l'authenticité des documents sur son moteur de recherche ayant fait l'objet d'une fuite

Après avoir précédemment refusé de commenter, Google a confirmé l'authenticité de 2 500 documents internes ayant fait l'objet d'une fuite, qui donnent un aperçu de ses pratiques en matière de collecte de données et de son algorithme de classement des recherches. Les documents offrent une vision unique, bien que floue, de l'algorithme de classement des recherches de Google. « Nous mettons en garde contre les hypothèses inexactes sur la recherche basées sur des informations hors contexte, obsolètes ou incomplètes », a déclaré Davis Thompson, porte-parole de Google.

Google, le moteur de recherche le plus utilisé au monde, a toujours gardé une grande partie de son algorithme de classement secret. Cependant, récemment, une fuite massive de documents internes a donné un aperçu sans précédent du fonctionnement interne de Google Search. Ces documents ne contiennent pas de code ou autre, et décrivent plutôt comment utiliser l'API Content Warehouse de Google qui est probablement destinée à un usage interne uniquement ; la documentation divulguée comprend de nombreuses références à des systèmes et des projets internes. Bien qu'il existe une API Google Cloud similaire qui est déjà publique, ce qui s'est retrouvé sur GitHub va bien au-delà, semble-t-il.

Les fichiers sont remarquables pour ce qu'ils révèlent des éléments que Google considère comme importants lorsqu'il classe les pages web en fonction de leur pertinence, une question d'intérêt permanent pour toute personne impliquée dans les activités de référencement et/ou pour toute personne exploitant un site web et espérant que Google l'aidera à gagner du trafic.

Une série de documents décrivant la manière dont Google classe les résultats de recherche est apparue en ligne, probablement à la suite d'une publication accidentelle par un robot interne. La documentation divulguée décrit une ancienne version de l'API Content Warehouse de Google et donne un aperçu du fonctionnement interne de Google Search.

La documentation semble avoir été publiée par inadvertance dans un dépôt accessible au public sur GitHub, aux alentours du 13 mars, par l'outil automatisé yoshi-code-bot. Cette automatisation a ajouté une licence open source Apache 2.0 à la livraison, comme c'est le cas pour la documentation publique de Google. Un commit de suivi le 7 mai a tenté d'annuler la fuite.

L'analyse d'experts en référencement

Rand Fishkin, qui a travaillé dans le domaine du référencement pendant plus de dix ans, affirme qu'une source lui a communiqué 2 500 pages de documents dans l'espoir que la divulgation de cette fuite contredirait les « mensonges » que les employés de Google ont racontés sur le fonctionnement de l'algorithme de recherche. Les documents décrivent l'API de recherche de Google et précisent les informations auxquelles les employés ont accès, selon Fishkin.

« Le dimanche 5 mai, j'ai reçu un courriel d'une personne affirmant avoir eu accès à une fuite massive de documentation sur les API au sein de la division Recherche de Google. Le courriel affirmait également que ces documents avaient été confirmés comme étant authentiques par d'anciens employés de Google, et que ces ex-employés et d'autres personnes avaient partagé des informations supplémentaires et privées sur les opérations de recherche de Google.

« Nombre de ces affirmations contredisent directement les déclarations publiques faites par les dirigeants de Google au fil des ans, notamment le refus répété de l'entreprise d'utiliser des signaux d'utilisateurs centrés sur le clic, le refus de prendre en compte les sous-domaines séparément dans les classements, le refus de mettre en place un bac à sable pour les nouveaux sites web, le refus de collecter ou de prendre en compte l'âge d'un domaine, et bien d'autres choses encore ».

Les détails partagés par Fishkin sont denses et techniques, probablement plus lisibles pour les développeurs et les experts en référencement que pour les profanes. En outre, le contenu de la fuite ne prouve pas nécessairement que Google utilise les données et les signaux spécifiques qu'il mentionne pour le classement des recherches. La fuite décrit plutôt les données que Google recueille auprès des pages web, des sites et des internautes, et donne des indications indirectes aux experts en référencement sur ce qui semble intéresser Google, comme l'a écrit Mike King, expert en référencement, dans son aperçu des documents.

« Allons droit au but. La documentation interne de l'API Content Warehouse de Google Search a fait l'objet d'une fuite. Les microservices internes de Google semblent refléter ce que Google Cloud Platform offre et la version interne de la documentation pour le Document AI Warehouse obsolète a été accidentellement publiée publiquement dans un dépôt de code pour la bibliothèque client. La documentation de ce code a également été capturée par un service de documentation automatisé externe.

« D'après l'historique des modifications, cette erreur de dépôt de code a été corrigée le 7 mai, mais la documentation automatisée est toujours en ligne. Afin de limiter la responsabilité potentielle, je n'y ferai pas référence ici, mais comme tout le code de ce dépôt a été publié sous la licence Apache 2.0, quiconque l'a trouvé s'est vu accorder un large éventail de droits, y compris la possibilité de l'utiliser, de le modifier et de le distribuer de toute façon.

« J'ai examiné les documents de référence de l'API et les ai mis en contexte avec d'autres fuites antérieures de Google et le témoignage antitrust du DOJ. Je combine cela avec les recherches approfondies sur les brevets et les livres blancs effectuées pour mon prochain livre, The Science of SEO (La science du référencement). Bien que la documentation que j'ai examinée ne contienne aucun détail sur les fonctions de notation de Google, elle contient une multitude d'informations sur les données stockées pour le contenu, les liens et les interactions avec les utilisateurs. On y trouve également des descriptions plus ou moins détaillées (allant de décevantes à étonnamment révélatrices) des caractéristiques manipulées et stockées.

« On serait tenté de les appeler globalement "facteurs de classement", mais ce serait imprécis. Nombre d'entre eux, voire la plupart, sont des facteurs de classement, mais beaucoup ne le sont pas. Ce que je vais faire ici, c'est mettre en contexte certains des systèmes et fonctionnalités de classement les plus intéressants (du moins, ceux que j'ai pu trouver au cours des premières heures d'examen de cette fuite massive) en me basant sur mes recherches approfondies et sur les choses que Google nous a dites/répétées au fil des ans ».

Les documents divulgués abordent des sujets tels que le type de données que Google collecte et utilise, les sites que Google privilégie pour des sujets sensibles tels que les élections, la manière dont Google traite les petits sites web, et bien plus encore. Selon Fishkin et King, certaines informations contenues dans les documents semblent être en contradiction avec les déclarations publiques des représentants de Google.

« Le mot "mensonge" est un peu fort, mais c'est le seul mot exact à utiliser ici », estime King. « Si je ne reproche pas nécessairement aux représentants publics de Google de protéger leurs informations propriétaires, je m'insurge contre leurs efforts visant à discréditer activement les personnes du monde du marketing, de la technologie et du journalisme qui ont présenté des découvertes reproductibles ».

Certains détails des documents divulgués remettent en question l'exactitude des déclarations publiques de Google

L'algorithme de recherche secret de Google a donné naissance à toute une industrie de spécialistes du marketing qui suivent de près les directives publiques de Google et les exécutent pour des millions d'entreprises à travers le monde. Ces tactiques omniprésentes et souvent agaçantes ont donné lieu à un discours général selon lequel les résultats de recherche de Google sont de plus en plus mauvais, encombrés de déchets que les exploitants de sites web se sentent obligés de produire pour que leurs sites soient vus. En réponse aux rapports précédents sur les tactiques de référencement, les représentants de Google se rabattent souvent sur une défense familière : ce n'est pas ce que disent les directives de Google.

Mais certains détails des documents divulgués remettent en question l'exactitude des déclarations publiques de Google concernant le fonctionnement de la recherche.

« De nombreuses affirmations [d'Azimi] [dans un courriel décrivant la fuite] contredisent directement les déclarations publiques faites par les Googlers au fil des ans, en particulier le refus répété de l'entreprise d'utiliser des signaux d'utilisateur centrés sur le clic, le refus de considérer les sous-domaines séparément dans les classements, le refus d'un bac à sable pour les sites Web plus récents, le refus de collecter ou de prendre en compte l'âge d'un domaine, et plus encore », a expliqué Fishkin, de SparkToro, dans un rapport.

Dans son billet sur les documents, King, d'iPullRank, a souligné une déclaration faite par John Mueller, défenseur de la recherche chez Google, qui a déclaré dans une vidéo que « nous n'avons rien de tel qu'un score d'autorité de site web » - une mesure permettant de savoir si Google considère qu'un site fait autorité et mérite donc un classement plus élevé dans les résultats de la recherche.

Rendez-vous à 42:56

Mais King note que les documents révèlent que, dans le cadre des signaux de qualité compressés que Google stocke pour les documents, un score « siteAuthority » peut être calculé.

Plusieurs autres révélations sont citées dans les deux billets.

L'une d'entre elles concerne l'importance des clics - et des différents types de clics (bons, mauvais, longs, etc.) - pour déterminer le classement d'une page web. Au cours du procès antitrust opposant les États-Unis à Google, Google a reconnu qu'il considérait les mesures de clics comme un facteur de...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Une énorme fuite d'un document sur Google Search révèle les rouages de son algorithme de classement

Certains détails remettent en question l'exactitude des déclarations publiques de Google

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Une énorme fuite d'un document sur Google Search révèle les rouages de son algorithme de classement Certains détails remettent en question l'exactitude des déclarations publiques de Google

Une énorme fuite d'un document sur Google Search révèle les rouages de son algorithme de classement

Certains détails remettent en question l'exactitude des déclarations publiques de Google