Skip to content
기능요금제제휴블로그도움말회사 소개문의하기
무료로 시작하기로그인
블로그로 돌아가기
tips2027-11-075 분 읽기

LLM 봇 탐지: 로그에서 GPTBot 트래픽 분리하기

Cloudflare 액세스 로그에서 grep으로 GPTBot, PerplexityBot, ClaudeBot을 골라내는 방법. thMenu 실데이터로 AI 최적화 우선순위 결정 흐름을 보여드립니다.

th

thMenu Team

thmenu.com

2027년 11월 기준 thMenu의 Cloudflare 액세스 로그에는 매월 GPTBot 14,200, PerplexityBot 8,700, ClaudeBot 4,100 페이지뷰가 기록됩니다. 전체 크롤의 18%이며 어떤 페이지가 AI 답변에 인용될지를 직접 결정합니다.

User-Agent 시그니처

OpenAI는 학습용 "GPTBot/1.2"와 세션 중 즉시 가져오기 "ChatGPT-User"를 구분합니다. Perplexity는 "PerplexityBot"와 "Perplexity-User", Anthropic은 "ClaudeBot", "Claude-Web", "anthropic-ai"를 씁니다.

Cloudflare Logpush에서는 ClientRequestUserAgent 필드를 그대로 BigQuery로 보낼 수 있습니다. Combined Log Format이면 한 줄 grep으로 충분합니다.

실전 grep 템플릿

주간 리포트에서 사용하는 명령:

  • grep -E "GPTBot|ChatGPT-User" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20 — 상위 20 URL
  • grep -c "PerplexityBot" access.log — 일일 히트
  • awk '/ClaudeBot/ {bytes+=$10} END {print bytes/1024/1024 " MB"}' access.log — 대역폭

thMenu에서는 요리 카테고리 페이지가 주당 340회 GPTBot에 노출되고, 블로그 글은 PerplexityBot이 가장 좋아합니다. 이 데이터가 분기 AI 백로그 순서를 바꿨습니다.

위장 봇 걸러내기

스크레이퍼는 GPTBot으로 위장합니다. reverse DNS로 openai.com, anthropic.com, perplexity.ai로 해석되는지 확인하세요. Cloudflare WAF "Verified Bot" 규칙이 자동화합니다.

OpenAI와 Anthropic은 공식 CIDR을 공개하므로 범위 밖 IP가 정상 user-agent를 쓴다면 거의 위장입니다.

FAQ

GPTBot을 차단해야 하나? 아니요 — 차단하면 ChatGPT 인용에서 제외됩니다. 유료 콘텐츠에만 Disallow를 사용하세요.

ChatGPT-User와 GPTBot 차이? GPTBot은 대량 색인, ChatGPT-User는 사용자가 요청할 때 실시간 가져오기 — 직접 인용 신호입니다.

로그 보관 기간? 트렌드 분석엔 30일, 운영용 최소 7일.

도움이 되셨나요? 공유해 주세요.