Quels sites bloquent les bots IA en France le 29 juillet 2024? -mise à jour : 31/07/2024

Olivier Martinez
2 min readJul 29, 2024

--

Quels sont les sites du top 250 de l’ACPM et quelques autres hors ACPM qui interdisent à OpenAI , à Common Crawl, à Google Gemini et à Claude d’Anthropic et aux autres bot IA d’accéder à leurs contenus ?

Edit 31/07 :
- mise à jour de la liste des bots
- mise à jour du lien vers les résultats du TDMRep
- mise à jour du fichier CSV avec les tests du 31/07

Des nouveautés et un nouvelle formule après quasiment 3 mois de non publication de ces tests.

Les résultats de ces tests sont maintenant disponibles et téléchargeables en CSV. Vous trouverez le lien à la fin de cet article.
Finis les tableaux sans fin sur Medium ;)

Note : les résultats pour le TDMRep seront publiés dans un article dédié dans quelques jours.
Edit 31/07 : ils sont publiés ici

La liste des bots a été mise à jour. A noter :
- Anthropic a changé de nom de user-agent ; les anciens ‘Claude-web’ et ‘Anthropic-ai’ ne sont plus utilisés officiellement
- Meta et Apple ont aussi mis à jour leurs user-agent IA.

Edit 31/07 :
Voici la liste des 22 user-agent dont la présence est testée dans les robots.txt

GPTBot
ChatGPT-User
CCBot
Google-Extended
ClaudeBot
PerplexityBot
Amazonbot
YouBot
cohere-ai
Diffbot
FacebookBot
Bytespider
Applebot
Applebot-Extended
Meta-ExternalFetcher
Meta-ExternalAgent
omgili
Timpibot
OAI-SearchBot
Edit 31/07
AISearchBot
anthropic-ai
Claude-Web

Le récap du nombres de sites qui interdisent le crawl pour chacun des bots :

A noter qu’aucun site français testé ne bloque les crawlers de Meta dédiés à Meta AI — certainement car l’outil n’est pas disponible en France… pourtant ce chatbot gère très bien la langue française.

Edit 31/07 : les sites tf1.fr et tf1info.fr sont les premiers à avoir mis en place le Disallow pour les 2 bots de Meta.

Pour télécharger le fichier CSV des résultats c’est par ici :

2024-07-29-robots-txt.csv

2024–07–31-robots-txt.csv

Si vous avez des questions, n’hésitez pas à me contacter sur LinkedIn ou par mail : olivier@255hex.ai

Bonne vacances.

--

--