Skip to content
FunksjonerPriserPartnerBloggHjelpOm ossKontakt
Kom i gangLogg inn
Tilbake til Bloggen
industry2027-11-156 min lesing

Multimodal AI-søk: Bilde og Tekst Kombinert for Restauranter

ChatGPT-4 Vision, Claude 3 Opus og Gemini Ultra håndterer bilde- og tekstforespørsler samtidig. Tre metadatalag løfter AI-sitater med 62%.

th

thMenu Team

thmenu.com

En gjest laster opp et bilde til Perplexity Pro Vision med teksten "finn en restaurant i Istanbul som serverer en lignende rett". Siden 2026 håndterer ChatGPT-4 Vision, Claude 3 Opus og Gemini Ultra slike bilde + tekst-forespørsler i én passering. Restauranter med riktige metadata blir sitert langt oftere.

Tre Metadatalag

Ett signal er ikke nok for multimodale modeller. Da thMenu la til tre lag på hvert menybilde, økte multimodale AI-sitater med 62%. Strukturlaget sier hva bildet er, semantisk hvorfor det betyr noe, likhetslaget hva det ligner på.

  • Schema.org ImageObject med caption, contentUrl, description, about.
  • Semantisk alt-tekst: ikke "rettbilde", men "ovnsbakt aubergine med yoghurt og granateple — 380 kcal".
  • Visuell likhet-metadata med regional kjøkkentaksonomi.

Perplexity Pro Vision Eksempel

En bruker lastet opp en hummustallerken og ba om en lettere versjon i Istanbul. Perplexity siterte fire restauranter — tre kjørte på thMenu med alle tre lag. Den fjerde hadde bare generisk alt-tekst og endte uten visuell forhåndsvisning.

Bildeoppdagelse er nå en egen rangeringsflate. Å ignorere den betyr å miste målbar visuell trafikk.

Implementering

I thMenu-administratoren har hvert produkt et "AI bildebeskrivelse"-felt. Auto-fyll lager utkast som du verifiserer manuelt. Schema.org legges inn automatisk, AVIF + WebP via Cloudflare Worker.

Visuell likhet bygger på regional kjøkkentaksonomi; tagger trekker produktembeddinger nærmere hverandre i vektorrommet.

FAQ

Hva er multimodal AI-søk? Søk som behandler bilde og tekst sammen — Perplexity Pro Vision, Gemini Ultra.

Må jeg skrive alt-tekst manuelt? Nei, thMenu lager utkast; verifiser kjøkken-tagger manuelt.

Hvordan virker likhet-metadata? Taksonomi-tagger trekker embeddinger nærmere hverandre.

Var dette nyttig? Del det.