Host nahraje fotografii do Perplexity Pro Vision s textem "najdi v Istanbulu restauraci, která servíruje podobné jídlo". Od roku 2026 ChatGPT-4 Vision, Claude 3 Opus a Gemini Ultra zpracují takové dotazy obraz + text najednou. Restaurace se správnými metadaty jsou citovány mnohem častěji.
Tři Vrstvy Metadat
Jediný signál multimodálním modelům nestačí. Když thMenu přidal tři vrstvy ke každému obrázku, míra multimodálních AI citací stoupla o 62%. Strukturní vrstva říká co obraz je, sémantická proč na něm záleží, podobnostní k čemu se podobá.
- Schema.org ImageObject s caption, contentUrl, description, about.
- Sémantický alt-text: ne "foto jídla", ale "pečený lilek s jogurtem a granátovým jablkem — 380 kcal".
- Metadata vizuální podobnosti s regionální kuchařskou taxonomií.
Případ Perplexity Pro Vision
Uživatel nahrál talíř hummusu a požádal o lehčí verzi v Istanbulu. Perplexity citoval čtyři restaurace — tři používaly thMenu se všemi třemi vrstvami. Čtvrtá měla jen generický alt-text a skončila na konci bez vizuálního náhledu.
Vyhledatelnost obrázků je dnes samostatná řadicí plocha. Ignorovat ji znamená ztratit měřitelný vizuální provoz.
Zavedení
V admin panelu thMenu má každý produkt pole "AI popis obrázku". Auto-fill vygeneruje koncept, který ručně ověříš. Schema.org se vkládá automaticky, AVIF + WebP přes Cloudflare Worker.
Vizuální podobnost staví na regionální kuchařské taxonomii; tagy přibližují produktové embeddingy v prostoru.
FAQ
Co je multimodální AI vyhledávání? Vyhledávání zpracovávající obraz a text společně — Perplexity Pro Vision, Gemini Ultra.
Musím psát alt-text ručně? Ne, thMenu generuje koncept; ručně ověř kuchařské tagy.
Jak fungují metadata podobnosti? Tagy taxonomie přibližují embeddingy v prostoru.
Bylo to užitečné? Sdílejte to.
Související články
Statický QR vs dynamický QR: srovnání TCO na 3 roky
Bistro s 24 stoly, 36 měsíců: 21 000 TRY na dotisky vs 11 640 TRY dynamické před…
Omotenashi a QR: japonská pohostinnost bez ztráty lidskosti
Proč tokijský Sukiyabashi Jiro odmítá QR menu, zatímco 68% středních izakají je …
AR náhled jídla přes WebXR: 3D v prohlížeči bez aplikace
Jak Dishoom Soho dosáhlo +22% průměrné útraty díky model-viewer. Optimalizace .g…