On reçoit de nombreuses questions suite à l’article de Next Inpact paru vendredi (2/08/19), portant notamment sur la capacité d’indexation de Qwant. Après avoir passé le week-end à faire nos investigations internes pour comprendre certaines choses, nous avons jugé important d’adresser publiquement nos réponses.
L’article s’appuie sur des accusations portées par un individu qui teste de manière répétée certaines requêtes précises. Il y constate l’ancienneté réelle de certains résultats proposés par Qwant, donnant l’impression d’un index à l’arrêt.
Accrochez-vous, c’est pas simple ! (même pour nous qui continuons à découvrir des problèmes créés en cascade par une erreur bête mais dont nous payons toujours les conséquences dans la mise à jour majeure cette année de notre technologie d’indexation du Web, toujours inachevée)
Tout d’abord, il faut savoir qu’un moteur de recherche met en cache ses résultats des recherches les plus fréquentes, pour ne pas solliciter inutilement ses serveurs. Ce cache est régulièrement mis à jour, selon des règles assez complexes.
La bourde d’où découlent tous nos problèmes, c’est qu’au moment d’une bascule vers une nouvelle techno, nous avons fait une erreur d’adressage qui a en quelque sorte « rebranché » un index de 2017 mis en sommeil, ce qui a pollué le cache.
Une mauvaise gestion du cache a ensuite engendré des problèmes de résultats frais écrasés automatiquement sans que l’on puisse le détecter facilement. Nous sommes depuis en train d’ajouter les contrôles qui nous manquaient.
Par exemple, un problème de cache était visible au niveau des clés affectées aux différents niveaux de modération des résultats (strict, modéré, aucun), avec des résultats frais ignorés pour certains niveaux et présents pour d’autres.
Ce bug n’est pas le premier que nous avons dans la gestion du cache et de l’index, mais c’était de loin le plus difficile à comprendre — et c’est vrai que nous aurions dû y consacrer plus d’énergie avant.
Cet article et les réactions qu’il a suscitées nous ont même permis de voir que le bug était plus large que ça.
↓ Si tu as eu le courage de nous lire jusque ici, la suite va t’intéresser ↓
Or Qwant est censé délivrer les mêmes résultats pour ces deux requêtes, par un système de rapprochement de requêtes similaires. Mais pour la même raison que précédemment, un ancien index renvoyant des résultats datant de 2017 écrasait systématiquement le cache rafraîchi de la première requête.
Il est également question dans l’article d’un « dark pattern » qui permettrait parfois de bloquer à 50 résultats et/ou de répéter les mêmes, comme si nous n’avions pas plus de 50 URL pertinentes en index.
La répétition des mêmes résultats dans les 50 résultats proposés sur certaines requêtes, qui ne répondait à aucune logique d’aucune sorte, est un autre bug que nos équipes ont identifié et corrigé grâce à la question posée. Nous publierons bientôt une vidéo pour rentrer avec plus de précisions dans ces explications techniques qu’il est difficile de résumer sur Twitter.
Nous regrettons seulement que les conclusions de l’article laissent entendre que Qwant ment à ses utilisateurs et ne développe pas son index, alors que c’est un investissement fondamental que nous faisons pour garantir l’existence d’un moteur de recherche européen, maître de ses résultats.
Si l’auteur de l’article avait accepté notre invitation à échanger avec l’équipe en charge de l’index de Qwant plutôt que de faire un constat à distance, nous aurions pu détailler son fonctionnement, échanger sur ces questions sereinement et résoudre ces bugs sans que des conclusions erronées soient publiées. Les retours de nos utilisateurs sont essentiels à l’amélioration de Qwant et participent chaque jour à la construction d’un meilleur service. C’est justement pourquoi nous organisons durant l’été des ateliers de tests dans nos locaux auxquels vous êtes tous bienvenus.
Construire un moteur de recherche respectueux de ses utilisateurs, avec un index du web indépendant est un projet colossal qui demande beaucoup de ressources et prend malheureusement du temps. Au vu de la difficulté technique du sujet, nous vous invitons à prendre le temps de venir échanger avec les hommes et les femmes qui font cet index pour démêler le vrai du faux dans tout ce que vous pouvez lire.
Et pour finir, nous vous remercions d’être toujours plus nombreux à utiliser Qwant et pour la confiance que vous nous accordez.