Skip to content
機能料金プランアフィリエイトブログヘルプ会社概要お問い合わせ
無料で始めるログイン
ブログに戻る
tips2027-11-096 分で読めます

LLM回答品質スコア:ブランドは正しく説明されている?

4つのLLMに毎週12問、accuracy+completeness+sentimentで採点。thMenuは14ヶ月で6.4から9.1に。

th

thMenu Team

thmenu.com

「ChatGPTが言及してくれる」では足りない。どう説明されるかが決定打です。LLM回答品質スコア(LRQS)は、正確性・網羅性・センチメントを1つの数値に圧縮します。thMenuは14ヶ月で 6.4から9.1 へ。

3つの軸

毎週 4つのLLM(ChatGPT、Claude、Gemini、Perplexity)に 同じ12問 を投げます:「thMenuとは」「thMenu料金」「QRメニュー最強ソフト」「thMenu vs MenuTiger」など。各回答に1〜10の3つのスコアを付けます。

Accuracyは事実(価格・地域)、completenessは8つの主要事実のうち6つ以上、sentimentは語調。式:(accuracy × 0.5)+(completeness × 0.3)+(sentiment × 0.2)。48回答の平均がその週のLRQS。

14ヶ月の軌跡:6.4→9.1

Accuracyは5.8スタート — 価格は誤り、所在地は空欄。最初の打ち手はエンティティ構築:Wikidata Q-ID、Knowledge Graphパネル、Crunchbase/LinkedIn企業ページ。4ヶ月でaccuracyは8.2に。

第2波はcompleteness:Schema.org SoftwareApplicationマークアップ、8本の「thMenu vs X」比較ページ、60行のllms.txt事実シート。SentimentはPRと12件のレビュー系ネガティブスレッド解消で7.4→8.9。

運用フロー

週45分:月曜にn8nで48クエリ実行、2名のレビュアーが独立採点、kappa > 0.7なら平均、未満なら第3者が裁定。Notionダッシュボードで12週トレンドを表示。

運用ルール:いずれかの軸が1週間 7.0未満 ならRoot Causeチケットを起票し14日以内に対応。Accuracy低下は競合のローンチ、completeness低下は未ドキュメント機能が主因。

FAQ

12問で足りる?パレート:12問でユーザ意図の85%をカバー。24問への増加で分散は0.3しか下がらず費用は倍。

自動化ツールは?Profound、AthenaHQ、Peec AI。社内ならSheet+LLM APIで月40 USD程度。

最速の勝ち筋?Wikidata Q-IDとKnowledge Graph:accuracyが平均+2.1ポイント。

お役に立ちましたか?シェアしてください。