Qui bloque GPTbot d’OpenAI et CCBot en France le 8 septembre?

Olivier Martinez
7 min readSep 8, 2023

Quels sont les sites du top 250 de l’ACPM et quelques autres hors ACPM qui interdisent à OpenAI et à Common Crawl d’accéder à leurs contenus ?

L’école a repris et il y a des entrées et sorties dans la liste des sites qui bloquent les bots d’OpenAI et du Common Crawl.

Toujours une bonne vingtaine de sites qui bloquent GPTbot : humanite.fr et rtl.fr sont les nouveaux en ce vendredi matin 6h30, heure de Rennes.

A noter cette semaine un aller-retour pour bftmtv.com qui pourtant bloquait GPTbot la semaine dernière, mais qui laisse de nouveau l’accès libre au crawler d’OpenAI.

Quelsque sites supplémentaires ont décidé de bloquer ChatGPT-User, le crawler dédié aux plug-ins de ChatGPT. Parmi eux des sites de la PQR comme Lavoixdunord.fr, NordLittoral.fr.

8 sites bloquent les 3 crawlers : Rfi.fr, France24.com, Vogue.fr, Gqmagazine.fr, Vanityfair.fr, Admagazine.fr, philonomist.com, philomag.com.

Voici le tableau récapitulatif des sites hors ACPM suivi du tableau récapitulatif des 250 premiers sites dans le classement de l’ACPM le matin du 1er septembre à 10h, heure de Paris.

Site (hors ACPM) GPTBot ChatGPT-User CCBot
journaldugeek.com non non non
presse-citron.net non non non
journaldesfemmes.fr non non non
linternaute.com non non non
marmiton.org non non non
amazon.fr bloqué non bloqué
fnac.com non non non
allocine.fr non non non
jeuxvideo.com non non non
purepeople.com non non non
ozap.com non non non
terrafemina.com non non non
drgood.fr non non non
automobile-magazine.fr non non non
cdiscount.com non non non
meteociel.fr non non non
leroymerlin.fr non non non
lachainemeteo.com non bloqué bloqué
tripadvisor.fr non non non
decathlon.fr non non non
darty.com non non non
cuisineaz.com non non non
turbo.fr non non non
zalando.fr non non non
aufeminin.com non non non
mind.eu.com non non non
tf1.fr bloqué bloqué non
francetvinfo.fr bloqué bloqué non
01net.com non non non
frandroid.com non non non
Clubic.com non non non
numerama.com non non non
lesnumeriques.com non non non
commentcamarche.net non non non
journaldunet.com non non non
phonandroid.com non non non
rtl.fr bloqué bloqué non
tomsguide.fr non non non
eurosport.fr non non non
actu.orange.fr non non non
fr.yahoo.com non non non
philonomist.com bloqué bloqué bloqué
philomag.com bloqué bloqué bloqué
mediapart.fr bloqué bloqué non
agefi.fr bloqué non non
tf1info.fr bloqué bloqué non
Site (ACPM) GPTBot ChatGPT-User CCBot
bfmtv.com non non non
Leboncoin.fr non bloqué non
ouest-france.fr non non non
lefigaro.fr non non non
lemonde.fr non non non
programme-tv.net non non non
actu.fr bloqué bloqué non
leparisien.fr non non non
lequipe.fr non non non
ladepeche.fr non bloqué non
20minutes.fr bloqué bloqué non
lindependant.fr non non non
femmeactuelle.fr non non non
francebleu.fr bloqué non non
gala.fr non non non
midilibre.fr non non non
sudouest.fr non non non
footmercato.net non non non
boursorama.com non non non
ledauphine.com non non non
voici.fr non non non
cnews.fr non non non
liberation.fr non non non
ohmymag.com non non non
Leprogres.fr non non non
Huffingtonpost.fr non non non
Capital.fr non non non
Lavoixdunord.fr non bloqué non
LePoint.fr non non non
Closermag.fr non non non
radiofrance.fr bloqué bloqué non
Letelegramme.fr non non non
LesEchos.fr non non non
Elle.fr non bloqué bloqué
Arte.tv non non non
nouvelobs.com non non non
programme-television.org non bloqué bloqué
Laprovence.com non non non
ParisMatch.com non non non
Estrepublicain.fr non non non
Geo.fr non non non
Gentside.com non non non
Marieclaire.fr non non non
Europe1.fr non non non
Rfi.fr bloqué bloqué bloqué
Vidal.fr non non non
Nicematin.com non non non
Lamontagne.fr non non non
Public.fr non bloqué bloqué
France24.com bloqué bloqué bloqué
CourrierInternational.com non non non
Lexpress.fr bloqué bloqué non
Programme.tv non non non
Lanouvellerepublique.fr non non non
Telerama.fr non non non
Rugbyrama.fr non non non
Cosmopolitan.fr non non non
Republicain-lorrain.fr non non non
Notretemps.com non non non
Lejsl.com non non non
Varmatin.com non non non
Bienpublic.com non non non
Magicmaman.com non non non
Santemagazine.fr non non non
TeleStar.fr non non non
Dna.fr non non non
Autoplus.fr erreur erreur erreur
LUnion.fr non non non
NordLittoral.fr non bloqué non
serieously.com non non non
Vogue.fr bloqué bloqué bloqué
Centrepresseaveyron.fr non non non
Marianne.net non bloqué bloqué
La-croix.com non non non
Femina.fr non bloqué bloqué
Parents.fr non non non
Paris-normandie.fr non non non
Latribune.fr non non non
Grazia.fr non non non
Lalsace.fr non non non
Gqmagazine.fr bloqué bloqué bloqué
Pourquoidocteur.fr non non non
Charentelibre.fr non non non
Science-et-vie.com non non non
Vosgesmatin.fr non non non
Courrier-picard.fr non non non
Topsante.com non non non
Larep.fr non non non
Challenges.fr non non non
Corsematin.com non non non
Larepubliquedespyrenees.fr non non non
Pleinevie.fr non non non
Premiere.fr non non non
Bibamagazine.fr non non non
LyonCapitale.fr non non non
Vanityfair.fr bloqué bloqué bloqué
TourMag.com non non non
Cotemaison.fr non non non
Sciencesetavenir.fr non non non
Lemessager.fr non non non
LEst-Eclair.fr non non non
Lechorepublicain.fr non non non
Lepopulaire.fr non non non
Leberry.fr non non non
Humanite.fr bloqué non non
Terre-net.fr non non non
Lejdc.fr non non non
Lamanchelibre.fr non non non
Admagazine.fr bloqué bloqué bloqué
Lyonne.fr non non non
UsineNouvelle.com non non non
Modesettravaux.fr non non non
my-angers.info non non non
Zinfos974.com non non non
Enfant.com non non non
Objectifgard.com non non non
Oisehebdo.fr non non non
Mercipourlinfo.fr non non non
nrpyrenees.fr non non non
LArdennais.fr non non non
rennes-infos-autrement.fr non non non
Corsenetinfos.corsica non non non
Tendanceouest.com non non non
Lafranceagricole.fr non non non
LeJDD.fr non non non
Autojournal.fr non non non
Leveil.fr non non non
Village-justice.com bloqué non non
petitbleu.fr non non non
Connaissancedesarts.com non non non
Lemoniteur.fr non non non
Magazine-avantages.fr non non non
Lagazettedescommunes.com non non non
maCommune.info non non non
lsa-conso.fr non non non
Lequotidiendumedecin.fr non non non
LOpinion.fr bloqué non non
Clicanoo.re 404 404 404
aisnenouvelle.fr non non non
Egora.fr non non non
Herault-tribune.com non non non
Lyonmag.com non non non
Radioclassique.fr non non non
Le-pays.fr non non non
Info-chalon.com non non non
Lerevenu.com non non non
e-marchespublics.com non non non
mesinfos.fr non non non
Centre-presse.fr non non non
Monde-diplomatique.fr non non non
Lasemainedespyrenees.fr non non non
Marchesonline.com non non non
Familiscope.fr non non non
Batiweb.com non non non
Larvf.com non non non
Lecourriercauchois.fr non non non
Acteurspublics.com erreur erreur erreur
Zoomdici.fr non non non
Argusdelassurance.com non non non
Lhotellerie-restauration.fr non non non
Legisocial.fr non non non
Infirmiers.com non non non
Actu-Juridique.fr non non non
Lopinion.com non non non
Notrefamille.com non non non
tl7.fr 404 404 404
Lasemaine.fr non non non
Usine-digitale.fr non non non
94.citoyens.com non non non
Lobservateur.fr non non non
Lobservateurdebeauvais.fr non non non
matot-braine.fr non non non
lapressedevesoul.com non non non
Gazettenpdc.fr non non non
Tribunedelyon.fr non non non
Mediabask.eus non non non
Larevuedupraticien.fr non non non
handicap.fr non non non
Themedialeader.fr non non non
Businessimmo.com non non non
Lyonpeople.com non non non
Ladepechedubassin.fr non non non
lereportersablais.com non non non
Gazettenormandie.fr non non non
LeJournalToulousain.fr non non non
lejournaldici.com non non non
Jim.fr non non non
letarnlibre.com non non non
rue89strasbourg.com non non non
Lebonhommepicard.fr non non non
Lequotidiendupharmacien.fr non non non
Gazettebourgogne.fr non non non
Cbnews.fr non non non
Lasemainedelallier.fr non non non
Strategies.fr non non non
Le-guide-sante.org non non non
angers.villactu.fr non non non
Lareclame.fr non non non
Picardiegazette.fr non non non
Lavoixdelain.fr non non non
lereveildumidi.fr non non non
If-saint-etienne.fr non non non
lemoniteurdespharmacies.fr non non non
Legifiscal.fr non non non
la-thierache.fr non non non
Lepetitjournal.net non non non
lhebdoduvendredi.com non non non
Tabletteslorraines.fr non non non
Stylist.fr non non non
Gazettemoselle.fr non non non
Gazetteoise.fr non non non
Francefootball.fr non non non
Rue89lyon.fr non non non
Presselib.com non non non
gazette-du-midi.fr non non non
journal-du-palais.fr non non non
weblex.fr non non non
Remede.org non non non
gazette-ariegeoise.fr non non non
macon-infos.com non non non
Diapasonmag.fr non non non
Direct-editeurs.fr non non non
Cardiologie-pratique.com non non non
Echodumardi.com non non non
Hebdo-ardeche.fr non non non
Tribuca.net non non non
Actus-limousin.fr non non non
Liberation-champagne.fr non non non
alpes1.com non non non
Influencia.net non non non
Emploisoignant.com non non non
touleco.fr non non non
Ledemocratedebergerac.fr non non non
Leresistant.fr non non non
Petitesaffiches.fr non non non
Lavoixdelahautemarne.fr non non non
Dordognelibre.fr non non non
tribune-hebdo.fr non non non
Pediatrie-pratique.com non non non
odsradio.com non non non
Letrois.info non non non
gynecologie-pratique.Com non non non
Hautegironde.fr non non non
Guyaweb.com non non non
Soundlightup.com non non non
actu.nc non non non
Diabetologie-pratique.com non non non
Journaldugolf.fr non non non
Sagefemme-pratique.com non non non

Voici ce qu’il faut ajouter dans le fichier robots.txt pour interdire au bot d’OpenAI et aux plugins de ChatGPT de venir crawler le contenu d’un site :

# Disable OpenAI bots
User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /

GPTbot est utilisé par le crawler d’OpenAI et ChatGPT-User est utilisé par les plug-ins de ChatGPT.

Les ranges d’IP utilisées par GPTbot sont :

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

Et par ChatGPT-User :

23.98.142.176/28

Voici ce qu’il faut ajouter dans le fichier robots.txt pour interdire au bot du Common Crawl de venir crawler le contenu d’un site :

User-agent: CCBot
Disallow: /

Et les IP utilisées :

38.107.191.66 through 38.107.191.119

--

--