Skip to content
المميزاتالأسعارالشراكةالمدونةالمساعدةمن نحنتواصل معنا
ابدأ الآنتسجيل الدخول
العودة إلى المدونة
tips2027-11-075 دقيقة قراءة

كشف بوتات LLM: عزل حركة GPTBot في سجلات الخادم

افلتر GPTBot وPerplexityBot وClaudeBot من سجلات Cloudflare باستخدام grep؛ أرقام thMenu الفعلية وكيف تعيد ترتيب أولويات تحسين الذكاء الاصطناعي.

th

thMenu Team

thmenu.com

في نوفمبر 2027، تسجل سجلات Cloudflare لـ thMenu شهريًا 14,200 مشاهدة GPTBot و8,700 PerplexityBot و4,100 ClaudeBot. هذا 18 % من إجمالي الزحف ويحدد أي صفحات يتم اقتباسها في إجابات الذكاء الاصطناعي.

بصمات User-Agent

تنشر OpenAI "GPTBot/1.2" لزحف التدريب و"ChatGPT-User" لجلسات ChatGPT المباشرة. Perplexity تقسم بين "PerplexityBot" و"Perplexity-User"، وAnthropic بين "ClaudeBot" و"Claude-Web" و"anthropic-ai".

في Cloudflare Logpush يذهب الحقل ClientRequestUserAgent مباشرة إلى BigQuery. لصيغة Combined Log Format يكفي سطر grep واحد.

قوالب grep جاهزة

الأوامر التي نستخدمها في التقرير الأسبوعي:

  • grep -E "GPTBot|ChatGPT-User" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 — أعلى 20 URL
  • grep -c "PerplexityBot" access.log — العدد اليومي
  • awk '/ClaudeBot/ {bytes+=$10} END {print bytes/1024/1024 " MB"}' access.log — استهلاك النطاق

في thMenu، صفحات تصنيف المأكولات تتلقى 340 طلبًا أسبوعيًا من GPTBot، بينما يفضل PerplexityBot منشورات المدونة. هذا أعاد ترتيب قائمة الأولويات.

كشف البوتات المزيفة

المُلتقطات تنتحل GPTBot. تحقق عبر reverse DNS: يجب أن يحل العنوان إلى openai.com أو anthropic.com أو perplexity.ai. قاعدة WAF "Verified Bot" في Cloudflare تتولى ذلك تلقائيًا.

تنشر OpenAI وAnthropic نطاقات CIDR رسمية؛ أي IP خارجها مع user-agent صحيح يكاد يكون انتحالًا.

الأسئلة الشائعة

هل أحظر GPTBot؟ لا — الحظر يحذفك من اقتباسات ChatGPT. استخدم Disallow فقط للمحتوى المدفوع.

الفرق بين ChatGPT-User وGPTBot؟ GPTBot يزحف للفهرسة، أما ChatGPT-User فيجلب صفحتك فورًا حين يطلبها مستخدم — إشارة اقتباس مباشرة.

كم أحتفظ بالسجلات؟ 30 يومًا للاتجاهات، 7 أيام للتحليل التشغيلي.

هل وجدت هذا مفيداً؟ شاركه.