Skip to content
FonctionnalitésTarifsAffiliésBlogAideÀ proposContact
CommencerSe connecter
Retour au Blog
tips2027-11-075 min de lecture

Détection de bots LLM : isoler le trafic GPTBot dans vos logs

Filtrez GPTBot, PerplexityBot et ClaudeBot des logs Cloudflare avec grep ; chiffres réels thMenu et impact sur la priorisation AI optimization.

th

thMenu Team

thmenu.com

En novembre 2027, les logs Cloudflare de thMenu enregistrent chaque mois 14 200 vues GPTBot, 8 700 PerplexityBot et 4 100 ClaudeBot. Ce volume représente 18 % du crawl total et conditionne désormais les citations en sortie de ChatGPT, Perplexity et Claude.

Signatures User-Agent

OpenAI utilise "GPTBot/1.2" pour le crawl d'entraînement et "ChatGPT-User" pour les fetchs déclenchés en session. Perplexity sépare "PerplexityBot" et "Perplexity-User", Anthropic combine "ClaudeBot", "Claude-Web" et "anthropic-ai".

Sur Cloudflare Logpush, le champ ClientRequestUserAgent est exporté tel quel vers BigQuery. En Combined Log Format, un grep suffit.

Modèles grep prêts à l'emploi

Voici les commandes utilisées dans notre rapport hebdomadaire :

  • grep -E "GPTBot|ChatGPT-User" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 — top 20 URLs
  • grep -c "PerplexityBot" access.log — comptage quotidien
  • awk '/ClaudeBot/ {bytes+=$10} END {print bytes/1024/1024 " MB"}' access.log — bande passante

Chez thMenu, les pages catégorie cuisine sont touchées 340 fois par semaine par GPTBot, alors que PerplexityBot privilégie les articles blog. Ce constat a reclassé notre backlog d'optimisation.

Détecter les bots usurpés

Les scrapers imitent souvent GPTBot. Vérifiez le reverse DNS : openai.com, anthropic.com, perplexity.ai. La règle WAF "Verified Bot" de Cloudflare automatise cette vérification.

OpenAI et Anthropic publient leurs plages CIDR. Une IP hors-plage avec un user-agent légitime est presque toujours frauduleuse.

FAQ

Faut-il bloquer GPTBot ? Non — bloquer supprime votre site des citations ChatGPT. N'utilisez Disallow que pour contenus payants.

ChatGPT-User vs GPTBot ? GPTBot crawle en masse pour l'index ; ChatGPT-User récupère en temps réel quand un utilisateur ouvre votre lien. Le second est un signal direct de citation.

Quelle durée de rétention ? 30 jours suffisent pour détecter les tendances ; 7 jours minimum pour l'analyse opérationnelle.

Cet article vous a été utile ? Partagez-le.