Skip to content
ВозможностиТарифыПартнёрамБлогСправкаО насКонтакты
НачатьВойти
Назад к Блогу
tips2027-11-096 мин чтения

Оценка качества ответов LLM: правильно ли описывают ваш бренд?

4 LLM, 12 еженедельных вопросов, accuracy + completeness + sentiment. thMenu поднялась с 6,4 до 9,1 за 14 месяцев.

th

thMenu Team

thmenu.com

«ChatGPT нас упоминает» — недостаточно: важно, как описывает. LLM Response Quality Score (LRQS) сводит точность, полноту и тон в одно число. thMenu выросла с 6,4 до 9,1 за 14 месяцев.

Три измерения

Каждую неделю задаём 4 LLM (ChatGPT, Claude, Gemini, Perplexity) одни и те же 12 вопросов: «что такое thMenu», «цены thMenu», «лучший QR-меню софт», «thMenu vs MenuTiger». Каждый ответ получает три оценки 1-10.

Accuracy проверяет факты, completeness считает 6 из 8 ключевых пунктов, sentiment оценивает тон. Формула: (accuracy × 0,5) + (completeness × 0,3) + (sentiment × 0,2). Среднее по 48 ответам — недельный LRQS.

14 месяцев: 6,4 → 9,1

Accuracy стартовала с 5,8 — цена неверная, локация пропала. Первым шагом стало entity building: Wikidata Q-ID, панель Knowledge Graph, профили в Crunchbase и LinkedIn. За 4 месяца accuracy достигла 8,2.

Вторая волна — completeness: разметка Schema.org SoftwareApplication, 8 страниц «thMenu vs X», канонический llms.txt на 60 строк. Sentiment вырос с 7,4 до 8,9 благодаря PR и закрытию 12 негативных тредов на сайтах отзывов.

Операционный цикл

45 минут в неделю: понедельник — 48 запросов через n8n, два ревьюера ставят оценки независимо, при kappa > 0,7 усредняем, иначе третий ревьюер решает. Дэшборд в Notion с трендом за 12 недель.

Правило: если ось ниже 7,0 неделю, открываем тикет root-cause со сроком 14 дней. Падение accuracy = запуск конкурента; падение completeness = не задокументированная фича.

FAQ

12 вопросов хватает? Парето: 12 покрывают 85% реального интента; 24 снижают разброс лишь на 0,3 балла.

Какие инструменты? Profound, AthenaHQ, Peec AI; либо Sheet + LLM API за ~40 USD/мес.

Самая быстрая победа? Wikidata Q-ID и Knowledge Graph: в среднем +2,1 пункта к accuracy.

Было полезно? Поделитесь.