industry2027-11-156 min czytania

Multimodalne Wyszukiwanie AI: Połączenie Obrazu i Tekstu w Restauracjach

Name: thMenu
Rating: 4.9 (127 reviews)
Author: thMenu

ChatGPT-4 Vision, Claude 3 Opus i Gemini Ultra odpowiadają na zapytania obraz plus tekst razem. Trzy warstwy metadanych zwiększają cytowania AI o 62%.

thMenu Team

thmenu.com

Gość przesyła zdjęcie do Perplexity Pro Vision z tekstem "znajdź w Stambule restaurację z podobnym daniem". Od 2026 ChatGPT-4 Vision, Claude 3 Opus i Gemini Ultra przetwarzają takie zapytania obraz + tekst w jednym przebiegu. Restauracje z poprawnymi metadanymi są cytowane znacznie częściej.

Trzy Warstwy Metadanych

Jeden sygnał nie wystarczy modelom multimodalnym. Gdy thMenu dodał trzy warstwy do każdego obrazu menu, cytowania multimodalne AI wzrosły o 62%. Warstwa strukturalna mówi czym jest obraz, semantyczna dlaczego ma znaczenie, podobieństwa do czego jest zbliżony.

Schema.org ImageObject z caption, contentUrl, description, about.
Semantyczny alt-text: nie "zdjęcie dania", lecz "pieczony bakłażan z jogurtem i granatem — 380 kcal".
Metadane wizualnego podobieństwa z regionalną taksonomią kulinarną.

Przykład Perplexity Pro Vision

Użytkownik przesłał talerz hummusu i poprosił o lżejszą wersję w Stambule. Perplexity zacytował cztery restauracje — trzy korzystały z thMenu z pełnymi trzema warstwami. Czwarta miała tylko ogólny alt-text i znalazła się na końcu bez podglądu wizualnego.

Wykrywalność obrazów to dziś samodzielna powierzchnia rankingowa. Ignorowanie jej oznacza utratę mierzalnego ruchu wizualnego.

Wdrożenie

W panelu thMenu każdy produkt ma pole "Opis obrazu AI". Auto-fill generuje wersję roboczą, którą weryfikujesz ręcznie. Schema.org jest osadzany automatycznie, AVIF + WebP przez Cloudflare Worker.

Podobieństwo wizualne bazuje na regionalnej taksonomii kulinarnej, której tagi zbliżają wektory produktów w przestrzeni embeddingu.

FAQ

Czym jest multimodalne wyszukiwanie AI? Wyszukiwanie obrazu i tekstu razem — Perplexity Pro Vision, Gemini Ultra.

Czy muszę pisać alt-text ręcznie? Nie, thMenu tworzy szkic; ręcznie weryfikuj tagi kuchni.

Jak działają metadane podobieństwa? Tagi taksonomii zbliżają embeddingi produktów.

Czy to było pomocne? Udostępnij.

X / Twitter LinkedIn

Powiązane artykuły

✦💰

industry

QR statyczny vs dynamiczny: porównanie TCO na 3 lata

Bistro z 24 stolikami, 36 miesięcy: 21 000 TRY na druki vs 11 640 TRY abonament …

✦🍣

industry

Omotenashi i QR: japońska gościnność bez utraty ludzkiego dotyku

Dlaczego Sukiyabashi Jiro w Tokio odrzuca menu QR, podczas gdy 68% średnich izak…

✦🥽

industry

Podgląd AR potraw przez WebXR: 3D w przeglądarce bez aplikacji

Jak Dishoom Soho osiągnęło +22% średniej wartości rachunku dzięki model-viewer. …