En gjest laster opp et bilde til Perplexity Pro Vision med teksten "finn en restaurant i Istanbul som serverer en lignende rett". Siden 2026 håndterer ChatGPT-4 Vision, Claude 3 Opus og Gemini Ultra slike bilde + tekst-forespørsler i én passering. Restauranter med riktige metadata blir sitert langt oftere.
Tre Metadatalag
Ett signal er ikke nok for multimodale modeller. Da thMenu la til tre lag på hvert menybilde, økte multimodale AI-sitater med 62%. Strukturlaget sier hva bildet er, semantisk hvorfor det betyr noe, likhetslaget hva det ligner på.
- Schema.org ImageObject med caption, contentUrl, description, about.
- Semantisk alt-tekst: ikke "rettbilde", men "ovnsbakt aubergine med yoghurt og granateple — 380 kcal".
- Visuell likhet-metadata med regional kjøkkentaksonomi.
Perplexity Pro Vision Eksempel
En bruker lastet opp en hummustallerken og ba om en lettere versjon i Istanbul. Perplexity siterte fire restauranter — tre kjørte på thMenu med alle tre lag. Den fjerde hadde bare generisk alt-tekst og endte uten visuell forhåndsvisning.
Bildeoppdagelse er nå en egen rangeringsflate. Å ignorere den betyr å miste målbar visuell trafikk.
Implementering
I thMenu-administratoren har hvert produkt et "AI bildebeskrivelse"-felt. Auto-fyll lager utkast som du verifiserer manuelt. Schema.org legges inn automatisk, AVIF + WebP via Cloudflare Worker.
Visuell likhet bygger på regional kjøkkentaksonomi; tagger trekker produktembeddinger nærmere hverandre i vektorrommet.
FAQ
Hva er multimodal AI-søk? Søk som behandler bilde og tekst sammen — Perplexity Pro Vision, Gemini Ultra.
Må jeg skrive alt-tekst manuelt? Nei, thMenu lager utkast; verifiser kjøkken-tagger manuelt.
Hvordan virker likhet-metadata? Taksonomi-tagger trekker embeddinger nærmere hverandre.
Var dette nyttig? Del det.
Relaterte artikler
Statisk QR vs dynamisk QR: total eierkostnad over 3 år
24-bord bistro, 36 måneder: 21 000 TRY i opptrykk vs 11 640 TRY dynamisk abonnem…
Omotenashi møter QR: japansk gjestfrihet uten å miste den menneskelige berøringen
Hvorfor Tokyos Sukiyabashi Jiro avviser QR-menyer mens 68% av mellomklasse-izaka…
AR matforhåndsvisning via WebXR: nettleser-3D uten app
Hvordan Dishoom Soho oppnådde +22% gjennomsnittlig regning med model-viewer. Sub…