industry2027-11-156 min lesing

Multimodal AI-søk: Bilde og Tekst Kombinert for Restauranter

Name: thMenu
Rating: 4.9 (127 reviews)
Author: thMenu

ChatGPT-4 Vision, Claude 3 Opus og Gemini Ultra håndterer bilde- og tekstforespørsler samtidig. Tre metadatalag løfter AI-sitater med 62%.

thMenu Team

thmenu.com

En gjest laster opp et bilde til Perplexity Pro Vision med teksten "finn en restaurant i Istanbul som serverer en lignende rett". Siden 2026 håndterer ChatGPT-4 Vision, Claude 3 Opus og Gemini Ultra slike bilde + tekst-forespørsler i én passering. Restauranter med riktige metadata blir sitert langt oftere.

Tre Metadatalag

Ett signal er ikke nok for multimodale modeller. Da thMenu la til tre lag på hvert menybilde, økte multimodale AI-sitater med 62%. Strukturlaget sier hva bildet er, semantisk hvorfor det betyr noe, likhetslaget hva det ligner på.

Schema.org ImageObject med caption, contentUrl, description, about.
Semantisk alt-tekst: ikke "rettbilde", men "ovnsbakt aubergine med yoghurt og granateple — 380 kcal".
Visuell likhet-metadata med regional kjøkkentaksonomi.

Perplexity Pro Vision Eksempel

En bruker lastet opp en hummustallerken og ba om en lettere versjon i Istanbul. Perplexity siterte fire restauranter — tre kjørte på thMenu med alle tre lag. Den fjerde hadde bare generisk alt-tekst og endte uten visuell forhåndsvisning.

Bildeoppdagelse er nå en egen rangeringsflate. Å ignorere den betyr å miste målbar visuell trafikk.

Implementering

I thMenu-administratoren har hvert produkt et "AI bildebeskrivelse"-felt. Auto-fyll lager utkast som du verifiserer manuelt. Schema.org legges inn automatisk, AVIF + WebP via Cloudflare Worker.

Visuell likhet bygger på regional kjøkkentaksonomi; tagger trekker produktembeddinger nærmere hverandre i vektorrommet.

FAQ

Hva er multimodal AI-søk? Søk som behandler bilde og tekst sammen — Perplexity Pro Vision, Gemini Ultra.

Må jeg skrive alt-tekst manuelt? Nei, thMenu lager utkast; verifiser kjøkken-tagger manuelt.

Hvordan virker likhet-metadata? Taksonomi-tagger trekker embeddinger nærmere hverandre.

Var dette nyttig? Del det.

X / Twitter LinkedIn

Relaterte artikler

✦💰

industry

Statisk QR vs dynamisk QR: total eierkostnad over 3 år

24-bord bistro, 36 måneder: 21 000 TRY i opptrykk vs 11 640 TRY dynamisk abonnem…

✦🍣

industry

Omotenashi møter QR: japansk gjestfrihet uten å miste den menneskelige berøringen

Hvorfor Tokyos Sukiyabashi Jiro avviser QR-menyer mens 68% av mellomklasse-izaka…

✦🥽

industry

AR matforhåndsvisning via WebXR: nettleser-3D uten app

Hvordan Dishoom Soho oppnådde +22% gjennomsnittlig regning med model-viewer. Sub…