Skip to content
기능요금제제휴블로그도움말회사 소개문의하기
무료로 시작하기로그인
블로그로 돌아가기
tips2027-11-096 분 읽기

LLM 응답 품질 점수: 브랜드가 정확히 설명되고 있나요?

4개 LLM, 매주 12개 질문, accuracy + completeness + sentiment 채점. thMenu는 14개월에 6.4에서 9.1로 상승.

th

thMenu Team

thmenu.com

"ChatGPT가 우리를 언급해준다"만으로는 부족합니다. 어떻게 설명하느냐가 핵심이죠. LLM 응답 품질 점수(LRQS)는 정확도, 완전성, 감성을 한 숫자로 압축합니다. thMenu는 14개월에 6.4에서 9.1로 올라섰습니다.

세 가지 축

매주 4개 LLM(ChatGPT, Claude, Gemini, Perplexity)에 동일한 12개 질문을 던집니다: "thMenu란", "thMenu 가격", "최고의 QR 메뉴 소프트웨어", "thMenu vs MenuTiger". 각 답변에 1~10 세 가지 점수를 부여합니다.

Accuracy는 사실(가격, 지역)을 확인, completeness는 핵심 8개 중 6개 이상 등장 여부, sentiment는 어조를 평가. 공식: (accuracy × 0.5) + (completeness × 0.3) + (sentiment × 0.2). 48개 답변의 평균이 주간 LRQS.

14개월: 6.4 → 9.1

Accuracy 시작은 5.8 — 가격 오류, 지역 누락. 첫 조치는 엔티티 구축: Wikidata Q-ID, Knowledge Graph 패널, Crunchbase·LinkedIn 회사 프로필. 4개월 안에 accuracy 8.2로 도약.

두 번째 파도는 completeness: Schema.org SoftwareApplication 마크업, 8개의 "thMenu vs X" 비교 페이지, 60줄 정식 llms.txt 사실 시트. Sentiment는 PR과 리뷰 사이트의 묵은 부정 스레드 12건 해결로 7.4 → 8.9.

운영 셋업

주당 45분: 월요일 오전 n8n으로 48개 쿼리, 두 명의 리뷰어가 독립 채점, kappa > 0.7이면 평균, 미만이면 세 번째 리뷰어가 결정. Notion 대시보드에서 12주 트렌드 표시.

액션 룰: 어느 축이든 1주일 동안 7.0 미만이면 14일 내 해결 데드라인의 근본원인 티켓을 발행. Accuracy 하락 = 경쟁사 출시, completeness 하락 = 미문서화된 기능.

FAQ

12개 질문이면 충분한가요? 파레토: 12개로 사용자 의도의 85% 커버; 24개로 늘려도 분산은 0.3점만 감소.

어떤 도구가 자동화? Profound, AthenaHQ, Peec AI; 또는 Sheet + LLM API로 월 40 USD.

가장 빠른 효과? Wikidata Q-ID + Knowledge Graph: 평균 accuracy +2.1점.

도움이 되셨나요? 공유해 주세요.