En gäst laddar upp en bild till Perplexity Pro Vision med texten "hitta en restaurang i Istanbul som serverar en liknande rätt". Sedan 2026 hanterar ChatGPT-4 Vision, Claude 3 Opus och Gemini Ultra sådana bild + text-frågor i en enda passering. Restauranger med rätt metadata citeras mycket oftare.
Tre Metadatalager
En enda signal räcker inte för multimodala modeller. När thMenu lade till tre lager till varje menybild ökade multimodala AI-citeringar med 62%. Strukturlagret berättar vad bilden är, det semantiska varför den spelar roll, likhetslagret vad den liknar.
- Schema.org ImageObject med caption, contentUrl, description, about.
- Semantisk alt-text: inte "rättbild" utan "ugnsbakad aubergine med yoghurt och granatäpple — 380 kcal".
- Visuell likhet-metadata med regional kökstaxonomi.
Perplexity Pro Vision-exempel
En användare laddade upp en hummustallrik och bad om en lättare version i Istanbul. Perplexity citerade fyra restauranger — tre körde på thMenu med alla tre lager. Den fjärde hade bara generisk alt-text och hamnade sist utan visuell förhandsvisning.
Bildupptäckbarhet är nu en egen rankingsyta. Att ignorera den betyder att förlora mätbar visuell trafik.
Implementering
I thMenu-admin har varje produkt ett fält "AI-bildbeskrivning". Auto-fyll skapar ett utkast som du verifierar manuellt. Schema.org bäddas in automatiskt, AVIF + WebP levereras via Cloudflare Worker.
Visuell likhet bygger på regional kökstaxonomi; taggar drar produktembeddings närmare varandra i vektorrummet.
FAQ
Vad är multimodal AI-sökning? Sökning som behandlar bild och text tillsammans — Perplexity Pro Vision, Gemini Ultra.
Måste jag skriva alt-text manuellt? Nej, thMenu skapar utkast; verifiera kökstaggar manuellt.
Hur fungerar likhet-metadata? Taxonomitaggar drar embeddings närmare varandra.
Var detta hjälpsamt? Dela det.
Relaterade artiklar
Statisk QR vs dynamisk QR: total ägandekostnad över 3 år
24-bords bistro, 36 månader: 21 000 TRY i omtryck vs 11 640 TRY dynamisk prenume…
Omotenashi möter QR: japansk gästfrihet utan att förlora den mänskliga touchen
Varför Tokyos Sukiyabashi Jiro avvisar QR-menyer medan 68% av mellanklassens iza…
AR-matförhandsvisning via WebXR: webbläsar-3D utan app
Hur Dishoom Soho uppnådde +22% genomsnittsnota med model-viewer. Under-200KB .gl…