guides2027-11-196 分钟阅读

AI 搜索实验室:每周 1 小时 LLM 查询测试工作流

Name: thMenu
Rating: 4.9 (127 reviews)
Author: thMenu

18 个标准查询、4 个 LLM、每周 1 小时。thMenu 已坚持 11 个月,检测引用比自动化工具准确 14%。

thMenu Team

thmenu.com

衡量品牌在 AI 搜索中的曝光,并不需要昂贵的 SaaS。thMenu 已经连续 11 个月每周四执行 1 小时的"AI 搜索实验室"——18 条固定查询、4 个 LLM,所有结果手动录入 Google 表格。成果:引用检测准确率比自动化工具高 14%,几乎没有误报。

18 条标准查询

每周运行完全相同的 18 条查询——只有答案在变。没有固定集合就无法分析趋势。分布:3 条品牌词、6 条对比词、6 条信息类、3 条语音风格。

自 Apple Intelligence 与 Gemini 2026 推出后,语音类查询变得更重要——对话式搜索占比已达 38%。忽视这一类等于丢失三分之一的意图信号。

每条查询都在 ChatGPT (GPT-5)、Claude (Opus 4.7)、Gemini (2.5 Pro) 和 Perplexity 上跑一遍,合计 72 次测试。thMenu 平均成绩:32 次出现引用,曝光率 44%。这是未来 AI 引荐流量的领先指标。

每次测试登记四列:是否有引用、引用了哪个页面、哪些竞争对手同时被引用、语气(正面/中性/负面)。人工阅读可以识别反讽与排序细节,这是爬虫无法做到的。

Profound、Otterly 这类 SaaS 工具速度快,却看不见质量——只标记"存在引用",不判断口吻或链接是否正确。我们的 47 周对照日志表明,自动化工具在 11 周里产生了 14 次误报,而人工流程仅 1 次。

理想组合:周中跑自动化保数量,周四 1 小时人工核验保质量。合计可达 94% 的信号可靠度,成本可控。

只用一个 LLM 行吗? 不行——各引擎引用重合率仅 31%。

查询集要改吗? 核心 18 条至少稳定 12 个月,每季度增补 2-3 条语音风格查询即可。

如何汇报? 每周曝光率图表 + 语气热力图,月度摘要一页足矣。

觉得有用?分享给朋友。

QR码菜单让顾客通过智能手机即时访问您的菜单——无需应用、无需纸质菜单、无需印刷成本。一切您需要了解的入门知识。…

想切换到二维码菜单但不知从何入手？本指南涵盖拍摄、内容迁移、二维码打印、员工培训以及上线当天的检查清单。…

安塔利亚拉腊180座全包度假村如何通过Cloudflare Workers和CF-IPCountry将同一QR码路由到土耳其语、德语或俄语菜单。…