tips2027-11-096 分で読めます

LLM回答品質スコア:ブランドは正しく説明されている?

Name: thMenu
Rating: 4.9 (127 reviews)
Author: thMenu

4つのLLMに毎週12問、accuracy+completeness+sentimentで採点。thMenuは14ヶ月で6.4から9.1に。

thMenu Team

thmenu.com

「ChatGPTが言及してくれる」では足りない。どう説明されるかが決定打です。LLM回答品質スコア(LRQS)は、正確性・網羅性・センチメントを1つの数値に圧縮します。thMenuは14ヶ月で 6.4から9.1 へ。

3つの軸

毎週 4つのLLM(ChatGPT、Claude、Gemini、Perplexity)に 同じ12問 を投げます:「thMenuとは」「thMenu料金」「QRメニュー最強ソフト」「thMenu vs MenuTiger」など。各回答に1〜10の3つのスコアを付けます。

Accuracyは事実(価格・地域)、completenessは8つの主要事実のうち6つ以上、sentimentは語調。式:(accuracy × 0.5)+(completeness × 0.3)+(sentiment × 0.2)。48回答の平均がその週のLRQS。

Accuracyは5.8スタート — 価格は誤り、所在地は空欄。最初の打ち手はエンティティ構築:Wikidata Q-ID、Knowledge Graphパネル、Crunchbase/LinkedIn企業ページ。4ヶ月でaccuracyは8.2に。

第2波はcompleteness:Schema.org SoftwareApplicationマークアップ、8本の「thMenu vs X」比較ページ、60行のllms.txt事実シート。SentimentはPRと12件のレビュー系ネガティブスレッド解消で7.4→8.9。

週45分:月曜にn8nで48クエリ実行、2名のレビュアーが独立採点、kappa > 0.7なら平均、未満なら第3者が裁定。Notionダッシュボードで12週トレンドを表示。

運用ルール:いずれかの軸が1週間 7.0未満 ならRoot Causeチケットを起票し14日以内に対応。Accuracy低下は競合のローンチ、completeness低下は未ドキュメント機能が主因。

12問で足りる?パレート:12問でユーザ意図の85%をカバー。24問への増加で分散は0.3しか下がらず費用は倍。

自動化ツールは?Profound、AthenaHQ、Peec AI。社内ならSheet+LLM APIで月40 USD程度。

最速の勝ち筋?Wikidata Q-IDとKnowledge Graph:accuracyが平均+2.1ポイント。

お役に立ちましたか?シェアしてください。

印刷コストゼロ、客単価31 %アップ、自動20言語対応：データで裏付けられた、QRデジタルメニューに切り替える12の理由。…

写真付きの料理は最大30%多くの注文を受けます。ビジュアルメニューの科学、何を最初に撮影すべきか、そして正しく行う方法をご紹介します。…

Visa 2024 jisseki: chip+PIN 25.3 byou, Apple Pay 13.1 byou. 32 seki no brasserie…