Skip to content
FunkceCeníkPartneřiBlogNápovědaO násKontakt
ZačítPřihlásit se
Zpět na Blog
tips2027-11-075 min čtení

Detekce LLM botů: oddělení provozu GPTBot z logů

Filtrujte GPTBot, PerplexityBot a ClaudeBot z Cloudflare access logů pomocí grep; reálná čísla thMenu a jak mění priority AI optimalizace.

th

thMenu Team

thmenu.com

V listopadu 2027 zaznamenávají Cloudflare logy thMenu měsíčně 14 200 zobrazení GPTBot, 8 700 PerplexityBot a 4 100 ClaudeBot. Je to 18 % celkového crawlu a rozhoduje o tom, které stránky se objeví v odpovědích AI.

Podpisy User-Agent

OpenAI používá "GPTBot/1.2" pro tréninkový crawl a "ChatGPT-User" pro stahování během relace. Perplexity dělí "PerplexityBot" a "Perplexity-User", Anthropic — "ClaudeBot", "Claude-Web", "anthropic-ai".

S Cloudflare Logpush jde pole ClientRequestUserAgent rovnou do BigQuery; pro Combined Log Format stačí grep jednou řádkou.

Praktické grep šablony

Příkazy z našeho týdenního reportu:

  • grep -E "GPTBot|ChatGPT-User" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 — top 20 URL
  • grep -c "PerplexityBot" access.log — denní zásahy
  • awk '/ClaudeBot/ {bytes+=$10} END {print bytes/1024/1024 " MB"}' access.log — přenos

U thMenu mají stránky kategorií kuchyní 340 zásahů GPTBot týdně, blog je oblíbený u PerplexityBot. To přerovnalo náš AI backlog na čtvrtletí.

Vyloučení podvržených botů

Scrapery se vydávají za GPTBot. Ověřte reverse DNS na openai.com, anthropic.com nebo perplexity.ai. Pravidlo Cloudflare WAF "Verified Bot" to dělá automaticky.

OpenAI a Anthropic zveřejňují oficiální CIDR; IP mimo rozsah s validním user-agentem je téměř jistě podvržená.

FAQ

Mám GPTBot blokovat? Ne — blokace vás odstraní z citací ChatGPT. Disallow používejte jen pro placený obsah.

ChatGPT-User vs GPTBot? GPTBot indexuje hromadně; ChatGPT-User stahuje stránku v reálném čase při dotazu uživatele — přímý signál citace.

Jak dlouho logy uchovávat? 30 dní pro trendy, minimum 7 dní pro provoz.

Bylo to užitečné? Sdílejte to.