يحمّل زبون صورة إلى Perplexity Pro Vision مع نص "اعثر على مطعم في إسطنبول يقدّم طبقاً مشابهاً". منذ 2026 يعالج ChatGPT-4 Vision و Claude 3 Opus و Gemini Ultra هذه الاستعلامات صورة + نص في تمريرة واحدة. المطاعم ذات البيانات الوصفية الصحيحة يُستشهد بها أكثر بكثير.
ثلاث طبقات من البيانات الوصفية
إشارة واحدة لا تكفي للنماذج متعددة الوسائط. عندما أضاف thMenu ثلاث طبقات لكل صورة، ارتفعت الاستشهادات متعددة الوسائط بنسبة 62%. الطبقة المنظمة تخبر الآلة ما هي الصورة، الطبقة الدلالية لماذا تهم، طبقة التشابه بماذا تُشبه.
- Schema.org ImageObject مع caption و contentUrl و description و about.
- نص بديل دلالي: ليس "صورة طبق" بل "باذنجان مشوي بالزبادي والرمان — 380 سعرة".
- بيانات تشابه بصري مع تصنيف مطبخي إقليمي.
مثال Perplexity Pro Vision
رفع مستخدم طبق حمص وطلب نسخة أخف في إسطنبول. استشهد Perplexity بأربعة مطاعم — ثلاثة تستخدم thMenu بالطبقات الثلاث. الرابع كان لديه نص بديل عام فقط وانتهى في الأخير دون معاينة بصرية.
قابلية اكتشاف الصور أصبحت سطح ترتيب مستقل. تجاهله يعني فقدان حركة مرور بصرية قابلة للقياس.
التنفيذ
في لوحة thMenu، لكل منتج حقل "وصف الصورة بالذكاء الاصطناعي". يُنشئ التعبئة التلقائية مسودة تتحقق منها يدوياً. يُدمج Schema.org تلقائياً، AVIF و WebP عبر Cloudflare Worker.
التشابه البصري مبني على تصنيف مطبخي إقليمي. الوسوم تقرّب تضمينات المنتجات في الفضاء المتجه.
أسئلة شائعة
ما هو البحث متعدد الوسائط؟ بحث يعالج الصورة والنص معاً — Perplexity Pro Vision و Gemini Ultra.
هل أكتب النص البديل يدوياً؟ لا، thMenu يولّد مسودة؛ تحقق من وسوم المطبخ يدوياً.
كيف تعمل بيانات التشابه؟ وسوم التصنيف تقرّب التضمينات في الفضاء المتجه.
هل وجدت هذا مفيداً؟ شاركه.
مقالات ذات صلة
رمز QR ثابت مقابل ديناميكي: مقارنة التكلفة الإجمالية على 3 سنوات
بسترو من 24 طاولة: 21,000 ليرة تركية لإعادة الطباعة مقابل 11,640 ليرة للاشتراك ا…
أوموتيناشي يلتقي بـ QR: الضيافة اليابانية دون فقدان اللمسة الإنسانية
لماذا يرفض سوكياباشي جيرو في طوكيو قوائم QR بينما تبنّاها 68% من إيزاكايا المتوس…
معاينة الطعام بالواقع المعزز عبر WebXR: 3D في المتصفح بدون تطبيق
كيف حقق Dishoom Soho زيادة 22% في متوسط الفاتورة باستخدام model-viewer. تحسين .g…