industry2027-11-156 min läsning

Multimodal AI-sökning: Bild och Text Kombinerade för Restauranger

Name: thMenu
Rating: 4.9 (127 reviews)
Author: thMenu

ChatGPT-4 Vision, Claude 3 Opus och Gemini Ultra besvarar bild- och textfrågor samtidigt. Tre metadatalager höjer AI-citeringar med 62%.

thMenu Team

thmenu.com

En gäst laddar upp en bild till Perplexity Pro Vision med texten "hitta en restaurang i Istanbul som serverar en liknande rätt". Sedan 2026 hanterar ChatGPT-4 Vision, Claude 3 Opus och Gemini Ultra sådana bild + text-frågor i en enda passering. Restauranger med rätt metadata citeras mycket oftare.

Tre Metadatalager

En enda signal räcker inte för multimodala modeller. När thMenu lade till tre lager till varje menybild ökade multimodala AI-citeringar med 62%. Strukturlagret berättar vad bilden är, det semantiska varför den spelar roll, likhetslagret vad den liknar.

Schema.org ImageObject med caption, contentUrl, description, about.
Semantisk alt-text: inte "rättbild" utan "ugnsbakad aubergine med yoghurt och granatäpple — 380 kcal".
Visuell likhet-metadata med regional kökstaxonomi.

Perplexity Pro Vision-exempel

En användare laddade upp en hummustallrik och bad om en lättare version i Istanbul. Perplexity citerade fyra restauranger — tre körde på thMenu med alla tre lager. Den fjärde hade bara generisk alt-text och hamnade sist utan visuell förhandsvisning.

Bildupptäckbarhet är nu en egen rankingsyta. Att ignorera den betyder att förlora mätbar visuell trafik.

Implementering

I thMenu-admin har varje produkt ett fält "AI-bildbeskrivning". Auto-fyll skapar ett utkast som du verifierar manuellt. Schema.org bäddas in automatiskt, AVIF + WebP levereras via Cloudflare Worker.

Visuell likhet bygger på regional kökstaxonomi; taggar drar produktembeddings närmare varandra i vektorrummet.

FAQ

Vad är multimodal AI-sökning? Sökning som behandlar bild och text tillsammans — Perplexity Pro Vision, Gemini Ultra.

Måste jag skriva alt-text manuellt? Nej, thMenu skapar utkast; verifiera kökstaggar manuellt.

Hur fungerar likhet-metadata? Taxonomitaggar drar embeddings närmare varandra.

Var detta hjälpsamt? Dela det.

X / Twitter LinkedIn

Relaterade artiklar

✦💰

industry

Statisk QR vs dynamisk QR: total ägandekostnad över 3 år

24-bords bistro, 36 månader: 21 000 TRY i omtryck vs 11 640 TRY dynamisk prenume…

✦🍣

industry

Omotenashi möter QR: japansk gästfrihet utan att förlora den mänskliga touchen

Varför Tokyos Sukiyabashi Jiro avvisar QR-menyer medan 68% av mellanklassens iza…

✦🥽

industry

AR-matförhandsvisning via WebXR: webbläsar-3D utan app

Hur Dishoom Soho uppnådde +22% genomsnittsnota med model-viewer. Under-200KB .gl…