Étude : qui bloque GPTBot, le robot d'OpenAI ?

Pour ses besoins en IA, OpenAI, la fondation qui développe notamment ChatGPT, peut être amenée à crawler vos sites et même à intégrer votre contenu à leur corpus de documents. Potentiellement, une future version de leur modèle sera entraînée sur des données qui contiennent votre contenu.

User-Agent GPTBot

Un user-agent, c'est une chaîne de caractères qu'envoient aussi bien les robots de crawl que les navigateurs de vos visiteurs, afin de s'identifier lorsqu'ils envoient une requête vers le serveur qui héberge votre site.

Pour voir si le robot d'OpenAI (appelé GPTBot) passe sur votre site, vous pouvez surveiller l'user-agent suivant :

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)


Bloquer le crawl

Pour les robots d'exploration, il existe un protocole qui vous permet de spécifier quel robot a accès à quelle partie de votre site. Ces instructions se placent dans un fichier robots.txt à la racine du site, et ce fichier est public. Les robots ne sont techniquement pas tenus de respecter ce fichier, mais c'est un protocole extrêmement répandu et en théorie, tous les acteurs sérieux respecteront vos directives.

Pour bloquer le crawl par les robots d'OpenAI, sur la totalité de votre site, il faut placer les deux lignes suivant dans votre robots.txt :

UserAgent: GPTBot 
Disallow: /

En France, qui bloque ?

Une étude partagée par Fabien Raquidel sur Twitter (liens : étude - profil de Fabien) nous a donné des chiffres au niveau mondial. Après en avoir discuté avec Fabien, assez célèbre pour sa veille SEO acharnée, nous avons décidé d'en faire une version française.

Méthodologie

Nous avons récupéré une liste du Top100 des sites visités depuis la France. Pour chacun de ses sites, nous avons envoyé une petite requête pour télécharger le fichier robots.txt, que nous avons ensuite analysé pour voir s'il contenait les fameuses lignes qui servent à bloquer le crawler de GPTBot.

Résultats

À l'heure actuelle, sur 200 domaines explorés, nous avons pu récupérer le fichier robots.txt de 197 sites. Seulement 6.06% des sites analysés bloquent GptBot.

Fait amusant à constater, la quasi-totalité des sites qui bloquent GPTBot sont des sites d'actualité édités par des grands groupes, comme radiofrance.fr, franceinter.fr ou lci.fr. Un seul site e-commerce dans ce top, il s'agit d'amazon.fr

Ça ne semble pas étonnant : j'imagine que, particulièrement dans la presse, l'utilisation de l'intelligence artificielle (que ça soit pour résumer des articles, diminuer le duplicate content interne ou carrément pour rédiger des brèves entières) est une solution technique qui fait de l'oeil aux décideurs, qui ont naturellement tendance à être plus au fait de ces techniques.

Didier Sampaolo

Didier Sampaolo

CTO