Skip to content
功能特色定价方案合作伙伴博客帮助关于我们联系我们
免费开始登录
返回博客
tips2027-11-096 分钟阅读

LLM 回答质量评分:你的品牌被准确描述了吗?

4 个 LLM、每周 12 个问题,accuracy + completeness + sentiment 评分。thMenu 14 个月内从 6.4 升到 9.1。

th

thMenu Team

thmenu.com

"ChatGPT 提到了我们"不够,关键是怎么描述。LLM 回答质量评分(LRQS)把准确度、完整度、情感浓缩为一个数字。thMenu 14 个月从 6.4 升到 9.1

三个维度

每周向 4 个 LLM(ChatGPT、Claude、Gemini、Perplexity)提 12 个标准问题:"thMenu 是什么"、"thMenu 价格"、"最好的 QR 菜单软件"、"thMenu vs MenuTiger"。每个回答打三项 1-10 分。

Accuracy 看事实,completeness 看 8 个关键信息中命中了几个(目标 ≥6),sentiment 看语气。公式:(accuracy × 0.5)+(completeness × 0.3)+(sentiment × 0.2)。48 条回答的平均值就是周度 LRQS。

14 个月:6.4 → 9.1

Accuracy 起步 5.8——价格错、所在地缺。第一步是实体建设:申请 Wikidata Q-ID、Knowledge Graph 卡片、Crunchbase 与 LinkedIn 公司档案。4 个月内 accuracy 飙到 8.2。

第二波打 completeness:Schema.org SoftwareApplication 标记、8 个"thMenu vs X"对比页、60 行的 llms.txt 事实清单。Sentiment 通过公关和解决 12 条沉积的负面帖,从 7.4 升到 8.9。

运营流程

每周 45 分钟:周一早上 n8n 跑 48 条查询,两位评审独立打分,kappa > 0.7 取均值,否则第三位评审决定。Notion 仪表板呈现 12 周趋势。

触发规则:任一维度连续一周低于 7.0,开根因工单,14 天内修复。Accuracy 下滑多源于竞品上新;completeness 下滑多源于新特性没写文档。

FAQ

12 个问题够吗?帕累托:12 覆盖 85% 真实意图;增到 24 只让方差再降 0.3 分。

有哪些工具?Profound、AthenaHQ、Peec AI;或自建 Sheet + LLM API,每月约 40 美元。

最快见效?Wikidata Q-ID 加 Knowledge Graph:accuracy 平均涨 2.1 分。

觉得有用?分享给朋友。