Skip to content
FunkcjeCennikPartnerzyBlogPomocO nasKontakt
Zacznij terazZaloguj się
Powrót do Bloga
industry2027-11-156 min czytania

Multimodalne Wyszukiwanie AI: Połączenie Obrazu i Tekstu w Restauracjach

ChatGPT-4 Vision, Claude 3 Opus i Gemini Ultra odpowiadają na zapytania obraz plus tekst razem. Trzy warstwy metadanych zwiększają cytowania AI o 62%.

th

thMenu Team

thmenu.com

Gość przesyła zdjęcie do Perplexity Pro Vision z tekstem "znajdź w Stambule restaurację z podobnym daniem". Od 2026 ChatGPT-4 Vision, Claude 3 Opus i Gemini Ultra przetwarzają takie zapytania obraz + tekst w jednym przebiegu. Restauracje z poprawnymi metadanymi są cytowane znacznie częściej.

Trzy Warstwy Metadanych

Jeden sygnał nie wystarczy modelom multimodalnym. Gdy thMenu dodał trzy warstwy do każdego obrazu menu, cytowania multimodalne AI wzrosły o 62%. Warstwa strukturalna mówi czym jest obraz, semantyczna dlaczego ma znaczenie, podobieństwa do czego jest zbliżony.

  • Schema.org ImageObject z caption, contentUrl, description, about.
  • Semantyczny alt-text: nie "zdjęcie dania", lecz "pieczony bakłażan z jogurtem i granatem — 380 kcal".
  • Metadane wizualnego podobieństwa z regionalną taksonomią kulinarną.

Przykład Perplexity Pro Vision

Użytkownik przesłał talerz hummusu i poprosił o lżejszą wersję w Stambule. Perplexity zacytował cztery restauracje — trzy korzystały z thMenu z pełnymi trzema warstwami. Czwarta miała tylko ogólny alt-text i znalazła się na końcu bez podglądu wizualnego.

Wykrywalność obrazów to dziś samodzielna powierzchnia rankingowa. Ignorowanie jej oznacza utratę mierzalnego ruchu wizualnego.

Wdrożenie

W panelu thMenu każdy produkt ma pole "Opis obrazu AI". Auto-fill generuje wersję roboczą, którą weryfikujesz ręcznie. Schema.org jest osadzany automatycznie, AVIF + WebP przez Cloudflare Worker.

Podobieństwo wizualne bazuje na regionalnej taksonomii kulinarnej, której tagi zbliżają wektory produktów w przestrzeni embeddingu.

FAQ

Czym jest multimodalne wyszukiwanie AI? Wyszukiwanie obrazu i tekstu razem — Perplexity Pro Vision, Gemini Ultra.

Czy muszę pisać alt-text ręcznie? Nie, thMenu tworzy szkic; ręcznie weryfikuj tagi kuchni.

Jak działają metadane podobieństwa? Tagi taksonomii zbliżają embeddingi produktów.

Czy to było pomocne? Udostępnij.