Skip to content
功能特色定价方案合作伙伴博客帮助关于我们联系我们
免费开始登录
返回博客
guides2027-11-196 分钟阅读

AI 搜索实验室:每周 1 小时 LLM 查询测试工作流

18 个标准查询、4 个 LLM、每周 1 小时。thMenu 已坚持 11 个月,检测引用比自动化工具准确 14%。

th

thMenu Team

thmenu.com

衡量品牌在 AI 搜索中的曝光,并不需要昂贵的 SaaS。thMenu 已经连续 11 个月每周四执行 1 小时的"AI 搜索实验室"——18 条固定查询、4 个 LLM,所有结果手动录入 Google 表格。成果:引用检测准确率比自动化工具高 14%,几乎没有误报。

18 条标准查询

每周运行完全相同的 18 条查询——只有答案在变。没有固定集合就无法分析趋势。分布:3 条品牌词6 条对比词6 条信息类3 条语音风格

自 Apple Intelligence 与 Gemini 2026 推出后,语音类查询变得更重要——对话式搜索占比已达 38%。忽视这一类等于丢失三分之一的意图信号。

4 LLM 横向对比

每条查询都在 ChatGPT (GPT-5)、Claude (Opus 4.7)、Gemini (2.5 Pro) 和 Perplexity 上跑一遍,合计 72 次测试。thMenu 平均成绩:32 次出现引用,曝光率 44%。这是未来 AI 引荐流量的领先指标。

每次测试登记四列:是否有引用、引用了哪个页面、哪些竞争对手同时被引用、语气(正面/中性/负面)。人工阅读可以识别反讽与排序细节,这是爬虫无法做到的。

人工 + 自动化混合优势

Profound、Otterly 这类 SaaS 工具速度快,却看不见质量——只标记"存在引用",不判断口吻或链接是否正确。我们的 47 周对照日志表明,自动化工具在 11 周里产生了 14 次误报,而人工流程仅 1 次。

理想组合:周中跑自动化保数量,周四 1 小时人工核验保质量。合计可达 94% 的信号可靠度,成本可控。

常见问题

只用一个 LLM 行吗? 不行——各引擎引用重合率仅 31%。

查询集要改吗? 核心 18 条至少稳定 12 个月,每季度增补 2-3 条语音风格查询即可。

如何汇报? 每周曝光率图表 + 语气热力图,月度摘要一页足矣。

觉得有用?分享给朋友。