İçeriğe atla
ÖzelliklerFiyatlandırmaİş OrtaklığıBlogYardımHakkımızdaİletişim
BaşlaGiriş Yap
Bloga Dön
tips2027-11-097 dk okuma

LLM Cevap Kalitesi Skoru: Markanızı Doğru Anlatıyor mu?

4 LLM, haftada 12 soru, accuracy + completeness + sentiment skorlaması. thMenu 14 ayda 6.4 puandan 9.1 puana çıkan ölçüm metodumuzu paylaşıyor.

th

thMenu Team

thmenu.com

"ChatGPT bizden bahsediyor" yetmez; nasıl bahsettiği belirleyici. LLM Cevap Kalitesi Skoru (LRQS), markanızın AI cevaplarındaki doğruluğunu, eksiksizliğini ve duygu tonunu tek bir sayıya indirir. thMenu 14 ayda 6.4'ten 9.1'e çıkardı; en büyük sıçramayı entity building sağladı.

Skorun Üç Boyutu ve Hesabı

Her hafta 4 LLM'e (ChatGPT, Claude, Gemini, Perplexity) 12 standart soru soruyoruz: "thMenu nedir", "thMenu fiyatları", "QR menü için en iyi yazılım", "thMenu vs MenuTiger" gibi. Her cevap üç eksende 1-10 arası puanlanır.

Accuracy faktları doğru mu (fiyat, özellik, lokasyon), completeness kilit bilgilerin kaçı geçti (en az 6/8 bilgi), sentiment ton nasıl (negatif 1-3, nötr 4-6, pozitif 7-10). Skor = (accuracy × 0.5) + (completeness × 0.3) + (sentiment × 0.2). 48 cevap ortalaması haftalık LRQS verir.

14 Aylık Yolculuk: 6.4 → 9.1

Başlangıçta accuracy 5.8'di — fiyatımızı yanlış, lokasyonu eksik söylüyorlardı. İlk müdahale entity building oldu: Wikidata Q-ID, Google Knowledge Graph kartı, Crunchbase + LinkedIn şirket profili. 4 ayda accuracy 8.2'ye fırladı.

Sonraki dalgada completeness'i hedefledik:

  • Schema.org SoftwareApplication + Organization markup tüm sayfalara
  • "thMenu vs X" karşılaştırma sayfaları (8 rakip)
  • llms.txt + canonical fact sheet (60 satır temiz fakt)

Sentiment ise PR + müşteri başarı hikayeleri ile 7.4'ten 8.9'a yükseldi. Şikâyet sitelerinde yanıtlanmamış 12 post'u çözümledik.

Operasyonel Kurulum

Haftalık çalışma 45 dakika sürer: Pazartesi sabahı 48 sorgu çalıştırılır (otomasyon: n8n + LLM API'leri), iki insan reviewer bağımsız puanlar, kappa > 0.7 ise ortalama alınır, Notion dashboard'a yazılır. Aşağıda kalibrasyon gerekirse üçüncü reviewer karara bağlanır.

Aksiyon kuralı: bir hafta bir boyut 7.0 altına düşerse 14 gün içinde root-cause + fix gerekir. accuracy düşüşü genelde rakip update'i, completeness düşüşü ise yeni özellik dokümantasyonu eksikliğidir.

FAQ

12 soru yeterli mi? Pareto: 12 soru gerçek kullanıcı niyetinin %85'ini kapsar; 24'e çıkarmak skorun varyansını sadece 0.3 puan düşürür, maliyet ikiye katlanır.

Hangi araç bu skoru otomatik veriyor? Profound, AthenaHQ, Peec AI benzer metrikler sunar; ama in-house excel + LLM API kombinasyonu ayda 40 dolarda kalır ve şirket-spesifik soru setine açıktır.

En hızlı kazanç ne? Wikidata Q-ID açmak (1 gün) + Knowledge Graph başvurusu (yaklaşık 2-6 hafta onay). Bu ikili accuracy boyutunda ortalama 2.1 puan getirisi sağlıyor.

Faydalı buldunuz mu? Paylaşın.