Qui bloque GPTbot d’OpenAI et CCBot en France le 1er septembre?

Olivier Martinez
8 min readSep 1, 2023

Quels sont les sites du top 250 de l’ACPM et quelques autres hors ACPM qui interdisent à OpenAI et à Common Crawl d’accéder à leurs contenus ?

En cette rentrée quels sont les sites et les éditeurs qui interdisent à OpenAI, mais aussi au Common Crawl de venir parcourir leurs sites ?

La semaine dernière peu de sites avaient mis en place une interdiction au niveau du robots.txt qui est pourtant actuellement la seule méthode qu’OpenAI s’engage à suivre pour ne pas crawler les contenus des sites web.

D’autres méthodes et outils existent pour interdire ou bloquer les crawls des sites et l’utilisation des contenus. Ils sont plus ou moins efficaces suivant les cas et les bots.
Il faut aussi rappeler les discussions sur la mise en place d’un protocole au niveau du W3C, le TDMRep (Text and Data Mining Reservation Protocol), qui permettra lors de son adoption définitive d’appliquer une licence à chaque continu publié, de faire connaitre cette licence aux crawlers et in fine d’obtenir de la paiement éventuel de droits. Merci à Emmanuel Parody pour son rappel éclairé sur ce sujet.

Cette semaine, j’ai ajouté un test pour connaitre les éditeurs qui bloquent aussi Common Crawl. Le Common Crawl est un organisme à but non lucratif qui rassemble et met à disposition des datastets de données rassemblées sur le web. Ce n’est pas l’organisme qui est visé par la mise en place d’interdiction par les éditeurs, mais plutôt l’utilisation de ces datasets par des entreprises qui entrainement leurs modèles de langage avec.

J’ai repris le top 250 ACPM de juillet et j’ai allongé la liste des sites hors ACPM.

Pour les sites ACPM cette semaine quelques sites supplémentaires bloquent GPTbot. On note la mise en place du disalow par bfmtv.com, actu.fr, 20minutes.fr, lexpress.fr.
Ces trois derniers sites bloquent aussi ChatGPT-User, ce qui n’est pas le cas de bfmtv.com. Enfin aucuns de ces sites ne bloquent CCbot.

La liste des sites du classement ACPM qui bloquent CCbot est aussi assez réduite, comprenant moins d’une dizaine de sites. On note la présence de : elle.fr, programme-television.org, public.fr, marianne.net, femina.fr

On peut aussi encore noter ce matin, comme la semaine dernière, que les seuls sites qui bloquent le crawl des 3 bots au niveau du robots.txt sont les sites de Condé Nast : le disallow est en place por GPTbot, ChatGPT-user et CCbot (Vogue, GQ Magazine, Vanityfair et AD Magazine)

Hors ACPM, les sites philinomist.com et philomag.com bloquent aussi les 3 bots.

Vous pouvez vous reporter à l’article de Mind Média publié le 30/08 et qui recense une quinzaine d’éditeurs ayant mis en place le blocage au niveau du robots.txt

En conclusion, cette semaine il y a encore peu de site qui bloquent les 3 bots au niveau de leur robots.txt.

Voici le tableau récapitulatif des sites hors ACPM suivi du tableau récapitulatif des 250 premiers sites dans le classement de l’ACPM le matin du 1er septembre à 10h, heure de Paris.

Sites (hors ACPM) GPTBot ChatGPT-User CCBot
journaldugeek.com non non non
presse-citron.net non non non
journaldesfemmes.fr non non non
linternaute.com non non non
marmiton.org non non non
amazon.fr bloqué non non
allocine.fr non non non
jeuxvideo.com non non non
purepeople.com non non non
ozap.com non non non
terrafemina.com non non non
drgood.fr non non non
automobile-magazine.fr non non non
cdiscount.com non non non
meteociel.fr non non non
leroymerlin.fr non non non
lachainemeteo.com non bloqué bloqué
tripadvisor.fr non non non
decathlon.fr non non non
darty.com non non non
cuisineaz.com non non non
turbo.fr non non non
zalando.fr non non non
aufeminin.com non non non
mind.eu.com non non non
tf1.fr bloqué bloqué non
francetvinfo.fr bloqué bloqué non
01net.com non non non
frandroid.com non non non
Clubic.com non non non
numerama.com non non non
lesnumeriques.com non non non
commentcamarche.net non non non
journaldunet.com non non non
phonandroid.com non non non
rtl.fr non non non
tomsguide.fr non non non
eurosport.fr non non non
actu.orange.fr non non non
fr.yahoo.com non non non
philinomist.com bloqué bloqué bloqué
philomag.com bloqué bloqué bloqué
mediapart.fr bloqué bloqué non
agefi.fr bloqué non non
tf1info.fr bloqué bloqué non
Sites (ACPM) GPTBot ChatGPT-User CCBot
bfmtv.com bloqué non non
Leboncoin.fr non bloqué non
ouest-france.fr non non non
lefigaro.fr non non non
lemonde.fr non non non
programme-tv.net non non non
actu.fr bloqué bloqué non
leparisien.fr non non non
lequipe.fr non non non
ladepeche.fr non bloqué non
20minutes.fr bloqué bloqué non
lindependant.fr non non non
femmeactuelle.fr non non non
francebleu.fr bloqué non non
gala.fr non non non
midilibre.fr non non non
sudouest.fr non non non
footmercato.net non non non
boursorama.com non non non
ledauphine.com non non non
voici.fr non non non
cnews.fr non non non
liberation.fr non non non
ohmymag.com non non non
Leprogres.fr non non non
Huffingtonpost.fr non non non
Capital.fr non non non
Lavoixdunord.fr non non non
LePoint.fr non non non
Closermag.fr non non non
radiofrance.fr bloqué bloqué non
Letelegramme.fr non non non
LesEchos.fr non non non
Elle.fr non bloqué bloqué
Arte.tv non non non
www.nouvelobs.com non non non
programme-television.org non bloqué bloqué
Laprovence.com non non non
ParisMatch.com non non non
Estrepublicain.fr non non non
Geo.fr non non non
Gentside.com non non non
Marieclaire.fr non non non
Europe1.fr non non non
Rfi.fr bloqué non non
Vidal.fr non non non
Nicematin.com non non non
Lamontagne.fr non non non
Public.fr non bloqué bloqué
France24.com bloqué non non
CourrierInternational.com non non non
Lexpress.fr bloqué bloqué non
www.programme.tv non non non
Lanouvellerepublique.fr non non non
Telerama.fr non non non
Rugbyrama.fr non non non
Cosmopolitan.fr non non non
Republicain-lorrain.fr non non non
Notretemps.com non non non
Lejsl.com non non non
Varmatin.com non non non
Bienpublic.com non non non
Magicmaman.com non non non
Santemagazine.fr non non non
TeleStar.fr non non non
Dna.fr non non non
Autoplus.fr erreur erreur erreur
LUnion.fr non non non
NordLittoral.fr non non non
serieously.com non non non
Vogue.fr bloqué bloqué bloqué
Centrepresseaveyron.fr non non non
Marianne.net non bloqué bloqué
La-croix.com non non non
Femina.fr non bloqué bloqué
Parents.fr non non non
Paris-normandie.fr non non non
Latribune.fr non non non
Grazia.fr non non non
Lalsace.fr non non non
Gqmagazine.fr bloqué bloqué bloqué
Pourquoidocteur.fr non non non
Charentelibre.fr non non non
Science-et-vie.com non non non
Vosgesmatin.fr non non non
Courrier-picard.fr non non non
Topsante.com non non non
Larep.fr non non non
Challenges.fr non non non
Corsematin.com non non non
Larepubliquedespyrenees.fr non non non
Pleinevie.fr non non non
Premiere.fr non non non
Bibamagazine.fr non non non
LyonCapitale.fr non non non
Vanityfair.fr bloqué bloqué bloqué
TourMag.com non non non
Cotemaison.fr non non non
Sciencesetavenir.fr non non non
Lemessager.fr non non non
LEst-Eclair.fr non non non
Lechorepublicain.fr non non non
Lepopulaire.fr non non non
Leberry.fr non non non
Humanite.fr non non non
Terre-net.fr non non non
Lejdc.fr non non non
Lamanchelibre.fr non non non
Admagazine.fr bloqué bloqué bloqué
Lyonne.fr non non non
UsineNouvelle.com non non non
Modesettravaux.fr non non non
my-angers.info non non non
Zinfos974.com non non non
Enfant.com non non non
Objectifgard.com non non non
Oisehebdo.fr non non non
Mercipourlinfo.fr non non non
nrpyrenees.fr non non non
LArdennais.fr non non non
rennes-infos-autrement.fr non non non
Corsenetinfos.corsica non non non
Tendanceouest.com non non non
Lafranceagricole.fr non non non
LeJDD.fr non non non
Autojournal.fr non non non
Leveil.fr non non non
Village-justice.com bloqué non non
petitbleu.fr non non non
Connaissancedesarts.com non non non
Lemoniteur.fr non non non
Magazine-avantages.fr non non non
Lagazettedescommunes.com non non non
maCommune.info non non non
lsa-conso.fr non non non
Lequotidiendumedecin.fr non non non
LOpinion.fr bloqué non non
Clicanoo.re erreur erreur erreur
aisnenouvelle.fr non non non
Egora.fr non non non
Herault-tribune.com non non non
Lyonmag.com non non non
Radioclassique.fr non non non
Le-pays.fr non non non
Info-chalon.com non non non
Lerevenu.com non non non
e-marchespublics.com non non non
mesinfos.fr non non non
Centre-presse.fr non non non
Monde-diplomatique.fr non non non
Lasemainedespyrenees.fr non non non
Marchesonline.com non non non
Familiscope.fr non non non
Batiweb.com non non non
Larvf.com non non non
Lecourriercauchois.fr non non non
Acteurspublics.com non non non
Zoomdici.fr non non non
Argusdelassurance.com non non non
Lhotellerie-restauration.fr non non non
Legisocial.fr non non non
Infirmiers.com non non non
Actu-Juridique.fr non non non
Lopinion.com non non non
Notrefamille.com non non non
tl7.fr erreur erreur erreur
Lasemaine.fr non non non
Usine-digitale.fr non non non
94.citoyens.com non non non
Lobservateur.fr non non non
Lobservateurdebeauvais.fr non non non
matot-braine.fr non non non
lapressedevesoul.com non non non
Gazettenpdc.fr non non non
Tribunedelyon.fr non non non
Mediabask.eus non non non
Larevuedupraticien.fr non non non
handicap.fr non non non
Themedialeader.fr non non non
Businessimmo.com non non non
Lyonpeople.com non non non
Ladepechedubassin.fr non non non
lereportersablais.com non non non
Gazettenormandie.fr non non non
LeJournalToulousain.fr non non non
lejournaldici.com non non non
Jim.fr non non non
letarnlibre.com non non non
rue89strasbourg.com non non non
Lebonhommepicard.fr non non non
Lequotidiendupharmacien.fr non non non
Gazettebourgogne.fr non non non
Cbnews.fr non non non
Lasemainedelallier.fr non non non
Strategies.fr non non non
Le-guide-sante.org non non non
angers.villactu.fr non non non
Lareclame.fr non non non
Picardiegazette.fr non non non
Lavoixdelain.fr non non non
lereveildumidi.fr non non non
If-saint-etienne.fr non non non
lemoniteurdespharmacies.fr non non non
Legifiscal.fr non non non
la-thierache.fr non non non
Lepetitjournal.net non non non
lhebdoduvendredi.com non non non
Tabletteslorraines.fr non non non
Stylist.fr non non non
Gazettemoselle.fr non non non
Gazetteoise.fr non non non
Francefootball.fr non non non
Rue89lyon.fr non non non
Presselib.com non non non
gazette-du-midi.fr non non non
journal-du-palais.fr non non non
weblex.fr non non non
Remede.org non non non
gazette-ariegeoise.fr non non non
macon-infos.com non non non
Diapasonmag.fr non non non
Direct-editeurs.fr non non non
Cardiologie-pratique.com non non non
Echodumardi.com non non non
Hebdo-ardeche.fr non non non
Tribuca.net non non non
Actus-limousin.fr non non non
Liberation-champagne.fr non non non
alpes1.com non non non
Influencia.net non non non
Emploisoignant.com non non non
touleco.fr non non non
Ledemocratedebergerac.fr non non non
Leresistant.fr non non non
Petitesaffiches.fr non non non
Lavoixdelahautemarne.fr non non non
Dordognelibre.fr non non non
tribune-hebdo.fr non non non
Pediatrie-pratique.com non non non
odsradio.com non non non
Letrois.info non non non
gynecologie-pratique.Com non non non
Hautegironde.fr non non non
Guyaweb.com non non non
Soundlightup.com non non non
actu.nc non non non
Diabetologie-pratique.com non non non
Journaldugolf.fr non non non
Sagefemme-pratique.com non non non

Voici ce qu’il faut ajouter dans le fichier robots.txt pour interdire au bot d’OpenAI et aux plugins de ChatGPT de venir crawler le contenu d’un site :

# Disable OpenAI bots
User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /

GPTbot est utilisé par le crawler d’OpenAI et ChatGPT-User est utilisé par les plug-ins de ChatGPT.

Les ranges d’IP utilisées par GPTbot sont :

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

Et par ChatGPT-User :

23.98.142.176/28

Voici ce qu’il faut ajouter dans le fichier robots.txt pour interdire au bot du Common Crawl de venir crawler le contenu d’un site :

User-agent: CCBot
Disallow: /

Et les IP utilisées :

38.107.191.66 through 38.107.191.119

--

--