Skip to content
المميزاتالأسعارالشراكةالمدونةالمساعدةمن نحنتواصل معنا
ابدأ الآنتسجيل الدخول
العودة إلى المدونة
industry2027-11-156 دقيقة قراءة

البحث بالذكاء الاصطناعي متعدد الوسائط: الصورة والنص معاً للمطاعم

ChatGPT-4 Vision و Claude 3 Opus و Gemini Ultra يجيبون استعلامات الصورة والنص معاً. ثلاث طبقات بيانات وصفية ترفع الاستشهادات بنسبة 62%.

th

thMenu Team

thmenu.com

يحمّل زبون صورة إلى Perplexity Pro Vision مع نص "اعثر على مطعم في إسطنبول يقدّم طبقاً مشابهاً". منذ 2026 يعالج ChatGPT-4 Vision و Claude 3 Opus و Gemini Ultra هذه الاستعلامات صورة + نص في تمريرة واحدة. المطاعم ذات البيانات الوصفية الصحيحة يُستشهد بها أكثر بكثير.

ثلاث طبقات من البيانات الوصفية

إشارة واحدة لا تكفي للنماذج متعددة الوسائط. عندما أضاف thMenu ثلاث طبقات لكل صورة، ارتفعت الاستشهادات متعددة الوسائط بنسبة 62%. الطبقة المنظمة تخبر الآلة ما هي الصورة، الطبقة الدلالية لماذا تهم، طبقة التشابه بماذا تُشبه.

  • Schema.org ImageObject مع caption و contentUrl و description و about.
  • نص بديل دلالي: ليس "صورة طبق" بل "باذنجان مشوي بالزبادي والرمان — 380 سعرة".
  • بيانات تشابه بصري مع تصنيف مطبخي إقليمي.

مثال Perplexity Pro Vision

رفع مستخدم طبق حمص وطلب نسخة أخف في إسطنبول. استشهد Perplexity بأربعة مطاعم — ثلاثة تستخدم thMenu بالطبقات الثلاث. الرابع كان لديه نص بديل عام فقط وانتهى في الأخير دون معاينة بصرية.

قابلية اكتشاف الصور أصبحت سطح ترتيب مستقل. تجاهله يعني فقدان حركة مرور بصرية قابلة للقياس.

التنفيذ

في لوحة thMenu، لكل منتج حقل "وصف الصورة بالذكاء الاصطناعي". يُنشئ التعبئة التلقائية مسودة تتحقق منها يدوياً. يُدمج Schema.org تلقائياً، AVIF و WebP عبر Cloudflare Worker.

التشابه البصري مبني على تصنيف مطبخي إقليمي. الوسوم تقرّب تضمينات المنتجات في الفضاء المتجه.

أسئلة شائعة

ما هو البحث متعدد الوسائط؟ بحث يعالج الصورة والنص معاً — Perplexity Pro Vision و Gemini Ultra.

هل أكتب النص البديل يدوياً؟ لا، thMenu يولّد مسودة؛ تحقق من وسوم المطبخ يدوياً.

كيف تعمل بيانات التشابه؟ وسوم التصنيف تقرّب التضمينات في الفضاء المتجه.

هل وجدت هذا مفيداً؟ شاركه.