İçeriğe atla
ÖzelliklerFiyatlandırmaİş OrtaklığıBlogYardımHakkımızdaİletişim
BaşlaGiriş Yap
Bloga Dön
tips2027-11-076 dk okuma

LLM Bot Tespiti: GPTBot Trafiğini Loglardan Ayırt Etme Rehberi

Cloudflare access loglarından GPTBot, PerplexityBot ve ClaudeBot trafiğini grep ile filtreleyin; thMenu örneği üzerinden aylık 27.000+ AI crawl analizini gösteriyoruz.

th

thMenu Team

thmenu.com

Kasım 2027 itibarıyla thMenu'nun Cloudflare access loglarında aylık 14.200 GPTBot, 8.700 PerplexityBot ve 4.100 ClaudeBot pageview kaydı görüyoruz. Bu rakamlar artık marjinal trafik değil — toplam crawl'ın yüzde 18'ini oluşturuyor ve hangi sayfaların AI yanıtlarında alıntılandığını doğrudan belirliyor. Loglarınızı ayıklayabilmek, AI optimization önceliklerinizi şekillendiren ilk adım.

User-Agent İmzalarını Tanıma

Her LLM botunun kendi user-agent imzası var ve neyse ki bunlar oldukça temiz. GPTBot "GPTBot/1.2" ve "ChatGPT-User" olarak iki ayrı kimlik kullanıyor — birincisi training crawl, ikincisi anlık ChatGPT browse trafiği. PerplexityBot ise "PerplexityBot" ve "Perplexity-User" ayrımıyla geliyor. ClaudeBot "ClaudeBot", "Claude-Web" ve "anthropic-ai" varyantlarıyla gözüküyor.

Cloudflare Logpush kullanıyorsanız ham log JSON'unda ClientRequestUserAgent alanını filtreleyebilirsiniz. Standart access log formatı için aşağıdaki tek satırlık grep yeterli oluyor:

Pratik Grep Şablonları

İşte günlük rapor için kullandığımız komutlar. AWK ile bot başına sayfa sayısı çıkarmak için:

  • grep -E "GPTBot|ChatGPT-User" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 — en çok crawl edilen 20 URL
  • grep -c "PerplexityBot" access.log — günlük PerplexityBot hit sayısı
  • awk '/ClaudeBot/ {bytes+=$10} END {print bytes/1024/1024 " MB"}' access.log — ClaudeBot bandwidth tüketimi

thMenu için bu sorguları çalıştırınca menü kategori sayfalarının (özellikle /c/dunya-mutfaklari) GPTBot tarafından haftada 340 kez tarandığını, blog post'larımızın ise PerplexityBot'un en çok ziyaret ettiği path'ler olduğunu öğrendik. Bu veri AI içerik optimizasyon backlog'umuzu yeniden sıraladı.

Sahte Bot'ları Eleme

Kötü niyetli scraper'lar GPTBot user-agent'ı taklit eder. Gerçek olduğunu doğrulamak için reverse DNS lookup yapın: OpenAI openai.com, Anthropic anthropic.com, Perplexity perplexity.ai domain'inden gelmeli. Cloudflare WAF kuralı ile bunu otomatikleştirebilirsiniz.

Ayrıca OpenAI ve Anthropic IP CIDR listelerini yayınlıyor — robots.txt'inize uyum gösteren bot, listede olmayan IP'den geliyorsa neredeyse kesin sahte. Bizim setup'ımızda Cloudflare Rule "Verified Bot" tag'i kullandığımız için bu ek bir kontrol katmanı oluşturuyor.

FAQ

GPTBot'u tamamen engellesem trafiğimi kaybeder miyim? Engellemeyin — engellerseniz ChatGPT yanıtlarında siteniz alıntılanmaz ve bu trafik kaynağını sıfırlarsınız. Yalnızca paywall içerik için Disallow kullanın.

ChatGPT-User ve GPTBot farkı nedir? GPTBot training/index amaçlı toplu crawl yapar; ChatGPT-User ise kullanıcı bir soru sorduğunda anlık olarak siteyi açar. İkincisi her zaman alıntılama sinyalidir.

Loglarımı saklamadan analiz yapabilir miyim? Evet — Cloudflare Logpush'u BigQuery veya S3'e gönderip 7 günlük TTL koyabilirsiniz. Bizim için 30 gün retention yeterli oluyor.

Faydalı buldunuz mu? Paylaşın.