Qui bloque OpenAI et son GPTbot en France fin août 2023 ?

Olivier Martinez
6 min readAug 25, 2023

--

Quels sont les sites du top 250 de l’ACPM et quelques autres hors ACPM qui interdisent à OpenAI d’accéder à leurs contenus ?

Cet été, OpenAI un peu sous pression, a indiqué comment les éditeurs pouvaient bloquer l’accès à son crawler. Comme il est de coutume cela se passe dans le fichier robots.txt à la racine du site (vous trouverez en bas de page, l’instruction qu’il faut ajouter.)

Avant la rentrée en cette fin d’été 2023, au matin du 25 août heure de Paris lors de ces tests, quels sont les sites qui interdisent l’accès à leurs pages à OpenAI et ChatGPT ?

Dans le top 250 de l’ACPM, ils sont peu. Très peu même. Encore moins ceux qui interdisent à la fois l’accès au crawler d’OpenAI et aux plug-in de ChatGPT.

Il y a 10 sites qui bloquent GPTbot, et parmi ces 10 sites, 4 bloquent en même temps ChatGPT et ses plug-ins. Il s’agit des sites de Vogue, GQ Magazine, Vanityfair et AD Magazine. Que des titres édités par Condé Nast.

Les sites des médias du service public (France Bleue, Radio France, RFI, France 24) ont été parmi les premiers à mettre en place l’interdiction d’accès au bot d’OpenAI. Mais ils autorisent toujours l’accès à ChatGPT avec ses plug-ins.

Pour compléter la liste, L’Opinion et Village Justice bloquent aussi GPTBot.

En plus des sites du classement ACPM, ont été ajoutés des sites média tech grand public (certainement un réflexe 😬), des médias télévisuel et radios, qui ne font pas partie de ce classement ACPM.

Seuls TF1 et France Info interdisent GPTBot et ChatGPT d’accéder à leurs contenus.

A noter que les sites actus d’Orange et de Yahoo, qui agrègent des contenus de diverses provenances, n’interdisent pas le crawl de GPTbot ni l’accès des plug-ins de ChatGPT.

Au final vous l’aurez compris, avant la rentrée de septembre, OpenAI a encore un accès presque total aux sites des médias en France.

Voici le tableau récapitulatif des sites hors ACPM suivi du tableau récapitulatif des 250 premiers sites dans le classement de l’ACPM du mois de juillet 2023.

Site GPTbot ChatGPT-user
mind.eu.com non non
tf1.fr oui oui
francetvinfo.fr oui oui
01net.com non non
frandroid.com non non
Clubic.com non non
numerama.com non non
lesnumeriques.com non non
commentcamarche.net non non
journaldunet.com non non
phonandroid.com non non
rtl.fr non non
tomsguide.fr non non
eurosport.fr non non
actu.orange.fr non non
fr.yahoo.com non non
Site GPTbot ChatGPT-user
bfmtv.com non non
Leboncoin.fr non non
ouest-france.fr non non
lefigaro.fr non non
lemonde.fr non non
programme-tv.net non non
actu.fr non non
leparisien.fr non non
lequipe.fr non non
ladepeche.fr non oui
20minutes.fr non non
lindependant.fr non non
femmeactuelle.fr non non
francebleu.fr oui non
gala.fr non non
midilibre.fr non non
sudouest.fr non non
footmercato.net non non
boursorama.com non non
ledauphine.com non non
voici.fr non non
cnews.fr non non
liberation.fr non non
ohmymag.com non non
Leprogres.fr non non
Huffingtonpost.fr Non Oui
Capital.fr Non Non
Lavoixdunord.fr non non
LePoint.fr Non Non
Closermag.fr Non Non
radiofrance.fr oui non
Letelegramme.fr non non
LesEchos.fr non non
Elle.fr non oui
Arte.tv non non
www.nouvelobs.com non non
programme-television.org Non Oui
Laprovence.com Non Non
ParisMatch.com Non Non
Estrepublicain.fr Non Non
Geo.fr non non
Gentside.com non non
Marieclaire.fr non non
Europe1.fr non non
Rfi.fr oui non
Vidal.fr non non
Nicematin.com non non
Lamontagne.fr non non
Public.fr non non
France24.com oui non
CourrierInternational.com non non
Lexpress.fr non non
www.programme.tv non non
Lanouvellerepublique.fr non non
Telerama.fr non non
Rugbyrama.fr non non
Cosmopolitan.fr non non
Republicain-lorrain.fr non non
Notretemps.com non non
Lejsl.com non non
Varmatin.com non non
Bienpublic.com non non
Magicmaman.com non non
Santemagazine.fr non non
TeleStar.fr non non
Dna.fr non non
Autoplus.fr 404 404
LUnion.fr non non
NordLittoral.fr non non
serieously.com non non
Vogue.fr oui oui
Centrepresseaveyron.fr non non
Marianne.net non oui
La-croix.com non non
Femina.fr non oui
Parents.fr non non
Paris-normandie.fr non non
Latribune.fr non non
Grazia.fr non non
Lalsace.fr non non
Gqmagazine.fr oui oui
Pourquoidocteur.fr non non
Charentelibre.fr non non
Science-et-vie.com non non
Vosgesmatin.fr non non
Courrier-picard.fr non non
Topsante.com Non Non
Larep.fr Non Non
Challenges.fr Non Non
Corsematin.com Non Non
Larepubliquedespyrenees.fr non non
Pleinevie.fr non non
Premiere.fr non non
Bibamagazine.fr non non
LyonCapitale.fr non non
Vanityfair.fr oui oui
TourMag.com non non
Cotemaison.fr non non
Sciencesetavenir.fr non non
Lemessager.fr non non
LEst-Eclair.fr non non
Lechorepublicain.fr Non Non
Lepopulaire.fr Non Non
Leberry.fr Non Non
Humanite.fr Non Non
Terre-net.fr non non
Lejdc.fr non non
Lamanchelibre.fr non non
Admagazine.fr oui oui
Lyonne.fr non non
UsineNouvelle.com non non
Modesettravaux.fr non non
my-angers.info non non
Zinfos974.com non non
Enfant.com non non
Objectifgard.com non non
Oisehebdo.fr non non
Mercipourlinfo.fr non non
nrpyrenees.fr non non
LArdennais.fr non non
rennes-infos-autrement.fr non non
Corsenetinfos.corsica Non Non
Tendanceouest.com Non Non
Lafranceagricole.fr Non Non
LeJDD.fr Non Non
Autojournal.fr non non
Leveil.fr non non
Village-justice.com oui non
petitbleu.fr non non
Connaissancedesarts.com non non
Lemoniteur.fr non non
Magazine-avantages.fr non non
Lagazettedescommunes.com non non
maCommune.info non non
lsa-conso.fr non non
Lequotidiendumedecin.fr non non
LOpinion.fr Oui Non
Clicanoo.re 404 404
aisnenouvelle.fr non non
Egora.fr Non Non
Herault-tribune.com non non
Lyonmag.com non non
Radioclassique.fr non non
Le-pays.fr non non
Info-chalon.com non non
Lerevenu.com non non
e-marchespublics.com non non
mesinfos.fr non non
Centre-presse.fr non non
Monde-diplomatique.fr non non
Lasemainedespyrenees.fr non non
Marchesonline.com non non
Familiscope.fr non non
Batiweb.com non non
Larvf.com non non
Lecourriercauchois.fr non non
Acteurspublics.com erreur erreur
Zoomdici.fr non non
Argusdelassurance.com non non
Lhotellerie-restauration.fr non non
Legisocial.fr non non
Infirmiers.com non non
Actu-Juridique.fr non non
Lopinion.com non non
Notrefamille.com non non
tl7.fr 404 404
Lasemaine.fr Non Non
Usine-digitale.fr Non Non
94.citoyens.com non non
Lobservateur.fr Non Non
Lobservateurdebeauvais.fr non non
matot-braine.fr non non
lapressedevesoul.com non non
Gazettenpdc.fr non non
Tribunedelyon.fr non non
Mediabask.eus non non
Larevuedupraticien.fr non non
handicap.fr non oui
Themedialeader.fr non non
Businessimmo.com non non
Lyonpeople.com non non
Ladepechedubassin.fr non non
lereportersablais.com non non
Gazettenormandie.fr non non
LeJournalToulousain.fr non non
lejournaldici.com non non
Jim.fr non non
letarnlibre.com non non
rue89strasbourg.com non non
Lebonhommepicard.fr non non
Lequotidiendupharmacien.fr non non
Gazettebourgogne.fr Non Non
Cbnews.fr Non Non
Lasemainedelallier.fr Non Non
Strategies.fr Non Non
Le-guide-sante.org non non
angers.villactu.fr non non
Lareclame.fr non non
Picardiegazette.fr non non
Lavoixdelain.fr non non
lereveildumidi.fr non non
If-saint-etienne.fr non non
lemoniteurdespharmacies.fr non non
Legifiscal.fr non non
la-thierache.fr non non
Lepetitjournal.net non non
lhebdoduvendredi.com non non
Tabletteslorraines.fr non non
Stylist.fr non non
Gazettemoselle.fr non non
Gazetteoise.fr non non
Francefootball.fr non non
Legeneraliste.fr non non
Rue89lyon.fr non non
Presselib.com non non
gazette-du-midi.fr non non
journal-du-palais.fr non non
weblex.fr non non
Remede.org non non
gazette-ariegeoise.fr non non
macon-infos.com non non
Diapasonmag.fr non non
Direct-editeurs.fr non non
Cardiologie-pratique.com non non
Echodumardi.com non non
Hebdo-ardeche.fr non non
Tribuca.net non non
Actus-limousin.fr non non
Liberation-champagne.fr non non
alpes1.com non non
Influencia.net non non
Emploisoignant.com non non
touleco.fr non non
Ledemocratedebergerac.fr non non
Leresistant.fr non non
Petitesaffiches.fr non non
Lavoixdelahautemarne.fr non non
Dordognelibre.fr non non
tribune-hebdo.fr non non
Pediatrie-pratique.com non non
odsradio.com non non
Letrois.info non non
gynecologie-pratique.Com non non
Hautegironde.fr non non
Guyaweb.com non non
Soundlightup.com non non
actu.nc non non
Diabetologie-pratique.com non non
Journaldugolf.fr non non
Sagefemme-pratique.com non non

Voici ce qu’il faut ajouter dans le fichier robots.txt pour interdire au bot d’OpenAI et aux plugins de ChatGPT de venir crawler le contenu d’un site :

# Disable OpenAI bots
User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /

GPTbot est utilisé par le crawler d’OpenAI et ChatGPT-User est utilisé par les plug-ins de ChatGPT.

Les ranges d’IP utilisées par GPTbot sont :

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

Et par ChatGPT-User :

23.98.142.176/28

--

--