Skip to content
機能料金プランアフィリエイトブログヘルプ会社概要お問い合わせ
無料で始めるログイン
ブログに戻る
tips2027-11-075 分で読めます

LLMボット検出:ログからGPTBotトラフィックを分離する方法

CloudflareアクセスログからGPTBot/PerplexityBot/ClaudeBotをgrepで抽出。thMenu実数を例にAI最適化優先順位の決め方を解説。

th

thMenu Team

thmenu.com

2027年11月時点で、thMenuのCloudflareアクセスログには月間GPTBot 14,200、PerplexityBot 8,700、ClaudeBot 4,100ページビューが記録されています。総クロールの18%を占め、どのページがAI回答に引用されるかを直接左右します。

User-Agentシグネチャ

OpenAIは学習用に"GPTBot/1.2"、セッション中の即時取得に"ChatGPT-User"を使い分けます。Perplexityは"PerplexityBot"と"Perplexity-User"、Anthropicは"ClaudeBot"、"Claude-Web"、"anthropic-ai"です。

Cloudflare LogpushではClientRequestUserAgentフィールドを直接BigQueryに流せます。Combined Log Formatなら1行grepで十分です。

即使えるgrepテンプレート

週次レポートで実行しているコマンド:

  • grep -E "GPTBot|ChatGPT-User" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 — 上位20URL
  • grep -c "PerplexityBot" access.log — 日次ヒット数
  • awk '/ClaudeBot/ {bytes+=$10} END {print bytes/1024/1024 " MB"}' access.log — 帯域

thMenuでは料理カテゴリページがGPTBotから週340回アクセスされ、ブログ記事はPerplexityBotに最も好まれます。この発見でAI最適化のバックログを並び替えました。

なりすましの除去

スクレイパーはGPTBotを偽装します。reverse DNSでopenai.comanthropic.comperplexity.aiに解決されるか確認します。CloudflareのWAF "Verified Bot" ルールが自動化してくれます。

OpenAIとAnthropicは公式CIDRを公開しているため、レンジ外のIPで正規user-agentを名乗るものはほぼ確実に偽装です。

FAQ

GPTBotをブロックすべき?いいえ — ブロックするとChatGPT引用から外れます。Disallowは有料コンテンツに限ります。

ChatGPT-UserとGPTBotの違いは?GPTBotは一括クロール、ChatGPT-Userはユーザーが質問した瞬間に取得 — 引用シグナルです。

どれくらい保持?トレンドは30日、運用は最低7日。

お役に立ちましたか?シェアしてください。