Skip to content
功能特色定价方案合作伙伴博客帮助关于我们联系我们
免费开始登录
返回博客
tips2027-11-075 分钟阅读

LLM机器人检测:从日志中分离GPTBot流量

用grep从Cloudflare访问日志中过滤GPTBot、PerplexityBot和ClaudeBot;thMenu真实数据展示AI优化优先级如何随之调整。

th

thMenu Team

thmenu.com

截至2027年11月,thMenu的Cloudflare访问日志每月记录14,200次GPTBot、8,700次PerplexityBot和4,100次ClaudeBot页面访问。这占总爬取量的18%,直接决定哪些页面会被AI回答引用。

User-Agent签名

OpenAI使用"GPTBot/1.2"进行训练爬取,"ChatGPT-User"用于会话中实时抓取。Perplexity分为"PerplexityBot"和"Perplexity-User",Anthropic则有"ClaudeBot"、"Claude-Web"和"anthropic-ai"。

在Cloudflare Logpush中ClientRequestUserAgent字段可直接写入BigQuery;Combined Log Format用一行grep即可。

实用grep模板

我们每周报告使用的命令:

  • grep -E "GPTBot|ChatGPT-User" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 — 前20热门URL
  • grep -c "PerplexityBot" access.log — 每日点击数
  • awk '/ClaudeBot/ {bytes+=$10} END {print bytes/1024/1024 " MB"}' access.log — 带宽消耗

在thMenu,菜系分类页面每周被GPTBot访问340次,而PerplexityBot更偏爱博客文章。这一发现重排了我们的AI优化季度路线图。

识别冒名机器人

爬虫常伪造GPTBot身份。通过reverse DNS验证:IP应解析到openai.comanthropic.comperplexity.ai。Cloudflare WAF的"Verified Bot"规则自动完成此项。

OpenAI与Anthropic公布官方CIDR段;不在段内却带合法user-agent的IP几乎必为伪造。

常见问题

应封禁GPTBot吗?不应——封禁会从ChatGPT引用中移除你的网站。仅对付费内容使用Disallow。

ChatGPT-User与GPTBot区别?GPTBot批量索引;ChatGPT-User在用户实时请求时抓取——是直接引用信号。

日志保留多久?30天足以分析趋势,7天为运营底线。

觉得有用?分享给朋友。