En gæst uploader et billede til Perplexity Pro Vision med teksten "find en restaurant i Istanbul der serverer en ret som denne". Siden 2026 håndterer ChatGPT-4 Vision, Claude 3 Opus og Gemini Ultra sådanne billede + tekst-forespørgsler i ét hug. Restauranter med de rette metadata bliver citeret langt oftere.
Tre Metadatalag
Et enkelt signal er ikke nok for multimodale modeller. Da thMenu tilføjede tre lag til hvert menubillede, steg multimodale AI-citater med 62%. Strukturlaget fortæller hvad billedet er, det semantiske hvorfor det betyder noget, ligheds-laget hvad det minder om.
- Schema.org ImageObject med caption, contentUrl, description, about.
- Semantisk alt-tekst: ikke "retbillede", men "ovnbagt aubergine med yoghurt og granatæble — 380 kcal".
- Visuel lighed-metadata baseret på regional køkkenklassifikation.
Perplexity Pro Vision Eksempel
En bruger uploadede en hummus-tallerken og bad om en lettere version i Istanbul. Perplexity citerede fire restauranter — tre kørte på thMenu med alle tre lag. Den fjerde havde kun generisk alt-tekst og endte uden visuel forhåndsvisning.
Billedfinderbarhed er nu en selvstændig rangeringsflade. Ignorerer du den, mister du målbar visuel trafik.
Implementering
I thMenu-admin har hvert produkt et "AI billedbeskrivelse"-felt. Auto-fill skaber et udkast, du verificerer manuelt. Schema.org indlejres automatisk, AVIF + WebP leveres via Cloudflare Worker.
Visuel lighed bygger på regional køkkenklassifikation; tags trækker produktembeddings tættere på hinanden i vektorrummet.
FAQ
Hvad er multimodal AI-søgning? Søgning der behandler billede og tekst sammen — Perplexity Pro Vision, Gemini Ultra.
Skal jeg skrive alt-tekst manuelt? Nej, thMenu skaber et udkast; verificer køkken-tags manuelt.
Hvordan virker lighed-metadata? Klassifikations-tags trækker embeddings tættere på hinanden.
Var dette nyttigt? Del det.
Relaterede artikler
Statisk QR vs dynamisk QR: samlede ejeromkostninger over 3 år
Bistro med 24 borde, 36 måneder: 21.000 TRY i genoptryk vs 11.640 TRY dynamisk a…
Omotenashi møder QR: japansk gæstfrihed uden at miste den menneskelige touch
Hvorfor Tokyos Sukiyabashi Jiro afviser QR-menuer, mens 68% af mellemklasse-izak…
AR-madforhåndsvisning via WebXR: browser-3D uden app
Hvordan Dishoom Soho opnåede +22% gennemsnitsregning med model-viewer. Sub-200KB…