衡量品牌在 AI 搜索中的曝光,并不需要昂贵的 SaaS。thMenu 已经连续 11 个月每周四执行 1 小时的"AI 搜索实验室"——18 条固定查询、4 个 LLM,所有结果手动录入 Google 表格。成果:引用检测准确率比自动化工具高 14%,几乎没有误报。
18 条标准查询
每周运行完全相同的 18 条查询——只有答案在变。没有固定集合就无法分析趋势。分布:3 条品牌词、6 条对比词、6 条信息类、3 条语音风格。
自 Apple Intelligence 与 Gemini 2026 推出后,语音类查询变得更重要——对话式搜索占比已达 38%。忽视这一类等于丢失三分之一的意图信号。
4 LLM 横向对比
每条查询都在 ChatGPT (GPT-5)、Claude (Opus 4.7)、Gemini (2.5 Pro) 和 Perplexity 上跑一遍,合计 72 次测试。thMenu 平均成绩:32 次出现引用,曝光率 44%。这是未来 AI 引荐流量的领先指标。
每次测试登记四列:是否有引用、引用了哪个页面、哪些竞争对手同时被引用、语气(正面/中性/负面)。人工阅读可以识别反讽与排序细节,这是爬虫无法做到的。
人工 + 自动化混合优势
Profound、Otterly 这类 SaaS 工具速度快,却看不见质量——只标记"存在引用",不判断口吻或链接是否正确。我们的 47 周对照日志表明,自动化工具在 11 周里产生了 14 次误报,而人工流程仅 1 次。
理想组合:周中跑自动化保数量,周四 1 小时人工核验保质量。合计可达 94% 的信号可靠度,成本可控。
常见问题
只用一个 LLM 行吗? 不行——各引擎引用重合率仅 31%。
查询集要改吗? 核心 18 条至少稳定 12 个月,每季度增补 2-3 条语音风格查询即可。
如何汇报? 每周曝光率图表 + 语气热力图,月度摘要一页足矣。
觉得有用?分享给朋友。