tips2027-11-075 Min. Lesezeit

LLM-Bot-Erkennung: GPTBot-Traffic in Logs erkennen und filtern

Name: thMenu
Rating: 4.9 (127 reviews)
Author: thMenu

Filtern Sie GPTBot, PerplexityBot und ClaudeBot mit grep aus Cloudflare-Access-Logs heraus. Echte thMenu-Zahlen zeigen, wie AI-Crawler die Optimierungsprioritäten verschieben.

thMenu Team

thmenu.com

Im November 2027 verzeichnen die Cloudflare-Access-Logs von thMenu monatlich 14.200 GPTBot-, 8.700 PerplexityBot- und 4.100 ClaudeBot-Pageviews. Das sind 18 Prozent des gesamten Crawl-Volumens und entscheidet darüber, welche Seiten in AI-Antworten zitiert werden.

User-Agent-Signaturen

Jeder LLM-Bot publiziert einen eindeutigen User-Agent. OpenAI verwendet "GPTBot/1.2" für Training und "ChatGPT-User" für Live-Abrufe bei ChatGPT-Nutzeranfragen. Perplexity teilt sich in "PerplexityBot" und "Perplexity-User", Anthropic in "ClaudeBot", "Claude-Web" und "anthropic-ai".

Bei Cloudflare Logpush steht der Wert direkt im JSON-Feld ClientRequestUserAgent und lässt sich nach BigQuery oder Athena streamen. Für Combined-Log-Format reicht ein One-Liner mit grep.

Praktische Grep-Befehle

Diese Befehle laufen täglich in unserem Monitoring:

grep -E "GPTBot|ChatGPT-User" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 — die 20 am häufigsten gecrawlten URLs
grep -c "PerplexityBot" access.log — tägliche PerplexityBot-Hits
awk '/ClaudeBot/ {bytes+=$10} END {print bytes/1024/1024 " MB"}' access.log — ClaudeBot-Bandbreite

Bei thMenu zeigte sich: Küchen-Kategorien werden 340-mal pro Woche von GPTBot gecrawlt, Blog-Posts dominieren bei PerplexityBot. Das hat unsere AI-Content-Roadmap neu sortiert.

Spoofing erkennen

Scraper fälschen gerne GPTBot. Per Reverse-DNS prüfen Sie, ob die IP zu openai.com, anthropic.com oder perplexity.ai auflöst. Cloudflare WAF "Verified Bot" macht das automatisch.

OpenAI und Anthropic veröffentlichen zusätzlich CIDR-Listen — IPs außerhalb dieser Bereiche mit passendem User-Agent sind nahezu sicher Fälschungen.

FAQ

Sollte ich GPTBot sperren? Nein — Sperren entfernt Sie aus ChatGPT-Zitaten. Nur Paywall-Bereiche per Disallow ausschließen.

Wie unterscheidet sich ChatGPT-User von GPTBot? GPTBot crawlt im Voraus, ChatGPT-User holt während einer Live-Sitzung Inhalte — jeder Hit ist ein Zitations-Signal.

Muss ich Rohlogs speichern? Nein, Logpush nach BigQuery mit 7 Tagen TTL reicht für die meisten Analysen.

Hilfreich? Teilen Sie es.

X / Twitter LinkedIn

LLM-Bot-Erkennung: GPTBot-Traffic in Logs erkennen und filtern

User-Agent-Signaturen

Praktische Grep-Befehle

Spoofing erkennen

FAQ

Verwandte Artikel

12 konkrete Vorteile von QR-Speisekarten (mit echten Daten)

Warum Speisekarten-Fotos den Umsatz steigern: Der Restaurant-Leitfaden

Warum Apple Pay-Nutzer im Restaurant 12 Sekunden weniger warten als Chip+PIN