Google : Comment Ca Marche ? Explorer, Indexer & Classer

Vu du côté internaute, les moteurs de recherche semblent très simples. Vous saisissez votre requête dans la boîte de recherche, et en moins de temps qu’il faut pour le dire, vos résultats s’affichent.

Voici la question que j’ai posée à Mathieu : “Sais-tu comment fonctionne Google pour trouver et classer les milliards de pages Web puis m’afficher les résultats lorsque je tape une requête ?”

En “cuisine”, ce résultat instantané est produit par un ensemble complexe de processus qui aident à identifier les données les plus pertinentes quand tu cherches ta recette préférée, un produit, une information ou tout simplement à obtenir une réponse à ta question. Les détails du processus sont techniquement très complexes. Néanmoins, connaître les bases non techniques de leur fonctionnement est utile pour comprendre les méthodes de référencement naturel (SEO).

Un travail de titan

Google : Comment Ca Marche ? Explorer, Indexer & Classer

Au moment où je rédige cet article et d’après Google, le Web est un ensemble de plus de 130 mille milliards de pages. C’est énorme, 1,000 multiplié par 130 milliards ! Mais c’est peut-être encore plus. En effet, il existe de nombreuses pages que Google ne prend pas en compte. Par exemple, les pages de Facebook ne sont pas répertoriées par Google.

Vu cette quantité de pages, comment sortir du lot et se démarquer de la concurrence ? Cela s’appelle le référencement naturel et pour être un champion, autant savoir comment les moteurs de recherche fonctionnent.

Afin que les résultats d’une requête soient les plus pertinents possibles pour les internautes, Google et les autres moteurs de recherche ont mis en place un processus bien huilé pour identifier les meilleures pages Web en fonction de la requête demandée. En résumé, le fonctionnement d’un moteur de recherche est composé de 3 mécanismes :

  • Explorer le Web — c’est-à-dire parcourir les liens un à un pour découvrir les pages les plus importantes sur le Web,
  • Indexer les pages — c’est à-dire enregistrer certaines informations des pages identifiées,
  • Classer les résultats — c’est-à-dire comprendre le sujet d’une page et la classer selon les requêtes que l’internaute demande.

Explorer le Web

Google : Comment Ca Marche ? Explorer, Indexer & Classer

Les moteurs de recherche ont des programmes “robots” (aussi appelés “spiders” ou “crawlers”) qui “explorent” le Web pour découvrir les pages qui existent et identifier les meilleures pages à retenir pour une requête donnée.

Quand un robot tombe sur une page Web, il la scanne pour trouver les liens vers d’autres pages. En suivant ces liens, les robots parcourent les milliards de pages interconnectés entre elles. C’est un peu comme tirer sur un bout du fil de la pelote de laine.

Ainsi, comme pour les internautes, les robots découvrent de nouvelles pages sur le Web. Chaque lien trouvé est ensuite mis dans une file d’attente que le robot va explorer par la suite.

Parcourir chaque jour les milliards de pages du Web est sûrement impossible à faire. Même avec ses milliers de robots qui fonctionnent en permanence sur des milliers d’ordinateurs à travers le monde, j’imagine qu’il faut à Google plusieurs jours, voire plusieurs semaines pour en faire le tour. Alors, j’imagine qu’il trie selon l’autorité du nom de domaine et de son rythme de mise à jour de son contenu.

Mes conseils :

Pour faciliter la tâche des robots, il est fortement conseillé de :

  • Déclarer son site Web aux moteurs de recherche via son fichier sitemaps.xml,
  • Et pour les plus experts d’entre vous, de configurer son fichier robots.txt qui permet d’indiquer aux robots les pages à prendre ou à ne pas prendre en compte lors de leur exploration.

Il est aussi utile de :

  • Bien travailler ses redirections pour éviter d’avoir des liens cassés,
  • Maximiser son maillage interne pour ne pas avoir des pages orphelines, c’est-à-dire non reliées avec au moins une autre page de son site Web.

Voici 3 articles que je vous recommande de relire pour optimiser le travail des robots sur votre site web :

Et pour suivre les liens cassés de votre site Web, installer l’extension Broken Link Checker si comme moi vous utilisez Wordpress. Et une fois les liens cassés identifiés, faites vos redirections avec l’extension redirection :-)

Pour les experts, soumettez vos nouvelles publications à Google directement depuis la Google Search Console à la rubrique “Explorer comme Google”.

Indexer les pages

Google : Comment Ca Marche ? Explorer, Indexer & Classer

L’indexation est le second mécanisme du fonctionnement d’un moteur de recherche. Pour chaque page, le robot récupère certaines informations et vient alimenter ou mettre à jour l’index. Concrètement, l’index est une base de données qui regroupe un ensemble d’informations des pages explorées par les robots des moteurs de recherche.

Dans cet index, on retrouve page par page :

  • L’adresse URL,
  • Des informations sur le contenu comme le titre, le texte, les balises meta, le nom des images, les attributs texte des images, …
  • La liste des liens pointant de cette page vers d’autres pages et leur texte d’ancrage,
  • D’autres informations sur les liens. Par exemple, sont-ils des liens publicitaires ?, à quel endroit se trouvent-ils sur la page ?, …

C’est la version moderne des fiches du bibliothécaire qui recensent tous les livres de sa bibliothèque.

Lorsqu’un utilisateur saisit une requête dans le moteur de recherche, Google consulte alors cet index pour récupérer les données pertinentes, comme le bibliothécaire consulte ses fiches quand vous lui demandez un livre. Si vous lui demandez un livre sur “les médecines douces”, le bibliothécaire parcourt ses fiches et vous conseille tel ou tel livre.

C’est pareil pour Google. Avant de décider quelles pages doivent figurer dans les pages de résultats et dans quel ordre, les moteurs de recherche font travailler des algorithmes pour aider à classer toutes ces pages Web.

Lire aussi : Lien d’Ancrage : Insérer un Lien vers un Endroit Précis d’une Page

Classer les résultats

Google : Comment Ca Marche ? Explorer, Indexer & Classer

Afin de vous fournir des résultats pertinents, les moteurs de recherche effectuent 3 étapes :

  • Interpréter l’intention de la requête de l’utilisateur,
  • Identifier les pages Web dans l’index correspondant à cette requête,
  • Classer puis afficher toutes ces pages Web par ordre de pertinence et d’importance.

C’est là où intervient le référencement naturel. Un référencement efficace contribue à influencer l’importance et la pertinence de ces pages Web pour les requêtes correspondantes.

Alors, qu’est-ce que la pertinence et l’importance d’une page Web ?

  • La pertinence est la note pour mesurer la correspondance entre le contenu d’une page Web et l’intention derrière la requête de l’internaute. L’intention est ce que les internautes essaient de trouver avec cette recherche. Par exemple, avec telle requête, l’internaute cherche-t-il à s’informer sur un produit ou à l’acheter ?
  • L’importance. Plus une page Web est mentionnée par d’autres pages, plus elle est “importante”. En effet, chaque mention est comme un vote de confiance. Traditionnellement, cela se présente sous la forme de liens provenant d’autres sites Web vers cette page Web. C’est ce que l’on appelle les backlinks ou les liens entrants.

Pour attribuer les notes de pertinence et d’importance, les moteurs de recherche ont mis au point des algorithmes complexes. Google prend en compte a priori plus de 200 critères pour déterminer la pertinence et l’importance d’une page Web donnée.

Je vous les ai décrits dans une série de 8 articles dont le premier volet est : 200 critères de l’algorithme de Google [1 À 25].

Nous n’aurons probablement jamais la liste complète des critères que les moteurs de recherche comme Google utilisent dans leurs algorithmes. Comme pour la recette du coca-cola, c’est un secret bien gardé. Ne serait-ce pour éviter que des spammeurs utilisent cette connaissance pour contourner le système et polluer le Web.

Par ailleurs, ces algorithmes sont en permanence mis à jour pour donner de meilleurs résultats aux internautes. Pour mieux appréhender les évolutions de l’algorithme de Google, je vous renvoie vers : C’est quoi l’algorithme de Google exactement ?

Mes conseils :

Définissez bien vos internautes cible et prenez en compte leurs différentes intentions lorsque, par exemple, vous rédigez un article de blog.

Et travaillez vos backlinks. Voici quelques articles pour vous guider :

Comment les moteurs de recherche évaluent-ils un contenu ?

Google : Comment Ca Marche ? Explorer, Indexer & Classer

Malgré tout, les moteurs de recherche ont dévoilé certains critères que vous pouvez utiliser pour travailler votre référencement naturel (SEO).

Pour bien classer ses résultats, un moteur de recherche doit comprendre la nature du contenu de chaque page Web qu’il a exploré.

Le contenu d’une page Web est un facteur très important dans son algorithme. Google a d’ailleurs confirmé que le contenu et les liens sont les 2 principaux facteurs de classement d’une page.

Pour comprendre le contenu d’une page, les moteurs de recherche établissent une “carte sémantique” en analysant tous les mots et les phrases. A partir de cette carte, Google se pose les questions suivantes :

  • Combien de fois cette page contient-elle un mot-clé ?
  • Ces mots-clefs apparaissent-ils dans le titre et dans l’URL ?
  • La page inclut-elle des synonymes pour les termes de recherche ?

C’est pourquoi je vous parle souvent de l’importance de choisir les bons mots-clés. Voici 5 conseils pour trouver des mots-clés à fort potentiel.

Comment les moteurs de recherche “voient” une page Web

Afin de comprendre le contenu, les moteurs de recherche analysent les données trouvées sur une page Web pour leur donner un sens.

Il faut savoir que les moteurs de recherche ne “voient” pas les pages Web comme nous.

Les moteurs de recherche “voient” le “Document Object Model” (ou “DOM” ) de la page pour voir ce qu’elle contient. Pour simplifier, le DOM est le code HTML et le Javascript de la page.

Vous pouvez regarder le code source de la page pour vous donner une idée de ce que les moteurs de recherche “voient”. Pour cela, cliquez avec le bouton droit sur la page Web de votre navigateur et cliquez sur “Afficher le code source”.

Voici la vue normale de mon article “6 rapports Google Analytics à suivre régulièrement” :

Google : Comment Ca Marche ? Explorer, Indexer & Classer

Et voici le code source correspondant :

Google : Comment Ca Marche ? Explorer, Indexer & Classer

Bon c’est un peu illisible mais le contenu d’une page Web se trouve souvent dans le code source.

En plus du contenu sur la page, il existe d’autres éléments qui aident les moteurs de recherche à comprendre votre page.

Les métadonnées de la page Web

Cela comprend entre autres la balise de titre et la balise de méta-description. Ces balises servent de titre et de description de la page Web dans les résultats de la recherche.

Mon conseil : J’insiste dès que je le peux mais ces balises doivent être travaillées avec attention pour optimiser le référencement d’une page. Pour plus d’informations, je vous renvoie vers :

Les attributs “alt” pour les images sur une page Web

A priori les moteurs de recherche ne savent pas encore “interpréter” les images. Donc, ils se servent de ces descriptions que je vous conseille de rajouter pour bien décrire l’objet de l’image.

Mon conseil : Ce n’est pas obligatoire mais comme ces attributs alt leur permettent de mieux comprendre le contenu de la page, cela joue sur le SEO de votre page. C’est pourquoi il ne faut pas les négliger. J’aborde ce sujet en détail dans mon guide complet pour optimiser vos images sur WordPress.

Note : ces attributs “alt” servent aussi aux personnes malvoyantes qui utilisent un logiciel qui leur dicte le contenu d’une page.

Les moteurs de recherche ne “voient” pas tout

Il est important de connaître les éléments d’une page Web que les moteurs de recherche ne “voient” pas. Ainsi, vous pouvez adapter le contenu de votre site Web pour aider les robots à mieux le comprendre.

Nous avons déjà mentionné les images et la façon dont les attributs alt aident les robots à comprendre à quoi correspond une image.

Mais d’autres éléments ne peuvent pas être interprétés par les moteurs de recherche.

Les fichiers “Flash”

Google a déclaré qu’il pouvait extraire certaines informations des fichiers Adobe Flash. Mais c’est plutôt difficile, car dans un premier temps, on peut considérer que Flash est similaire à une image. Certes, il est possible de rajouter du texte pour expliquer l’objet du Flash. Malheureusement, peu de développeurs y pensent.

Mon conseil : Essayez d’éviter d’utiliser Flash le plus possible sur votre site Web d’autant que Google programme la fin de Flash pour fin 2017. Préférez plutôt HTML5 qui est une alternative compatible avec les moteurs de recherche.

Les fichiers audio et vidéo

Comme pour les images, les moteurs de recherche ont des difficultés pour comprendre les fichiers audio ou vidéo.

Mon conseil : Ajoutez les transcriptions de vos fichiers audio et/ou vidéo sur la page Web pour aider les moteurs de recherche à mieux les comprendre. C’est aussi une fonction proposée par YouTube.

Les programmes

Par exemple, AJAX et d’autres formes de JavaScript sont des programmes qui affichent dynamiquement le contenu d’une page Web. Google travaille pour les prendre en compte, mais il a encore de nombreuses limites.

Les balises iframes

Google : Comment Ca Marche ? Explorer, Indexer & Classer

Une balise iframe est utilisée pour intégrer le contenu d’un autre site dans votre page Web. Par exemple, les bannières publicitaires sont dans des balises iFrame. Sur mon blog, le captcha que vous devez valider avant de saisir un commentaire en est une aussi.

Evidemment, Google ne traite pas ce contenu comme s’il faisait partie de votre page, puisqu’il provient d’un autre site Web.

Réflexions personnelles sur comment marche un moteur de recherche

Google : Comment Ca Marche ? Explorer, Indexer & Classer

Aucune technologie n’est impartiale. Prenons un exemple pour illustrer mes propos. Tapez “beauté” sur Google Image. Selon les algorithmes de Google, la beauté se résume à un jeune visage féminin à la peau blanche !

Il n’y a aucune place dans ces résultats pour Audrey Hepburn ou encore :

  • Le sourire d’un inconnu,
  • Un lever de soleil,
  • Ou une peinture de Renoir, …

Chaque technologie a ses compromis et ses travers. Le travers dans l’exemple ci-dessus est dû tout simplement au fait que le secteur de la cosmétique investit plus d’argent, et publie plus de contenus sur le Web, que les amateurs des tableaux de Renoir. Dans ces conditions, la cosmétique devient rapidement la norme pour définir les canons de la beauté.

En résumé sur “Comment fonctionne Google ?”

Et pourquoi s’en préoccuper ?

Je suis persuadée que le fait de connaître les 3 étapes de Google — explorer, indexer, classer — ne peut que vous aider à harmoniser au mieux le site Web de votre entreprise pour faciliter sa compréhension pour les moteurs de recherche. De cette manière, votre référencement sera meilleur et vous pourrez trouver de nouvelles opportunités grâce à Internet.

Pour gagner du temps sur les aspects techniques, tout en faisant plaisir à Google, en plus de continuer à me lire régulièrement, je vous conseille fortement de commencer par :

Qu’avez-vous appris sur le fonctionnement des moteurs de recherche ? Que pensez-vous de Google? En tant que blogueuse, je l’aime bien mais surtout parce qu’il apporte beaucoup de trafic sur mon blog.


Originally published at Audrey Tips.