Gość przesyła zdjęcie do Perplexity Pro Vision z tekstem "znajdź w Stambule restaurację z podobnym daniem". Od 2026 ChatGPT-4 Vision, Claude 3 Opus i Gemini Ultra przetwarzają takie zapytania obraz + tekst w jednym przebiegu. Restauracje z poprawnymi metadanymi są cytowane znacznie częściej.
Trzy Warstwy Metadanych
Jeden sygnał nie wystarczy modelom multimodalnym. Gdy thMenu dodał trzy warstwy do każdego obrazu menu, cytowania multimodalne AI wzrosły o 62%. Warstwa strukturalna mówi czym jest obraz, semantyczna dlaczego ma znaczenie, podobieństwa do czego jest zbliżony.
- Schema.org ImageObject z caption, contentUrl, description, about.
- Semantyczny alt-text: nie "zdjęcie dania", lecz "pieczony bakłażan z jogurtem i granatem — 380 kcal".
- Metadane wizualnego podobieństwa z regionalną taksonomią kulinarną.
Przykład Perplexity Pro Vision
Użytkownik przesłał talerz hummusu i poprosił o lżejszą wersję w Stambule. Perplexity zacytował cztery restauracje — trzy korzystały z thMenu z pełnymi trzema warstwami. Czwarta miała tylko ogólny alt-text i znalazła się na końcu bez podglądu wizualnego.
Wykrywalność obrazów to dziś samodzielna powierzchnia rankingowa. Ignorowanie jej oznacza utratę mierzalnego ruchu wizualnego.
Wdrożenie
W panelu thMenu każdy produkt ma pole "Opis obrazu AI". Auto-fill generuje wersję roboczą, którą weryfikujesz ręcznie. Schema.org jest osadzany automatycznie, AVIF + WebP przez Cloudflare Worker.
Podobieństwo wizualne bazuje na regionalnej taksonomii kulinarnej, której tagi zbliżają wektory produktów w przestrzeni embeddingu.
FAQ
Czym jest multimodalne wyszukiwanie AI? Wyszukiwanie obrazu i tekstu razem — Perplexity Pro Vision, Gemini Ultra.
Czy muszę pisać alt-text ręcznie? Nie, thMenu tworzy szkic; ręcznie weryfikuj tagi kuchni.
Jak działają metadane podobieństwa? Tagi taksonomii zbliżają embeddingi produktów.
Czy to było pomocne? Udostępnij.
Powiązane artykuły
QR statyczny vs dynamiczny: porównanie TCO na 3 lata
Bistro z 24 stolikami, 36 miesięcy: 21 000 TRY na druki vs 11 640 TRY abonament …
Omotenashi i QR: japońska gościnność bez utraty ludzkiego dotyku
Dlaczego Sukiyabashi Jiro w Tokio odrzuca menu QR, podczas gdy 68% średnich izak…
Podgląd AR potraw przez WebXR: 3D w przeglądarce bez aplikacji
Jak Dishoom Soho osiągnęło +22% średniej wartości rachunku dzięki model-viewer. …