industry2027-11-156 min læsning

Multimodal AI-søgning: Billede plus Tekst Kombineret for Restauranter

Name: thMenu
Rating: 4.9 (127 reviews)
Author: thMenu

ChatGPT-4 Vision, Claude 3 Opus og Gemini Ultra besvarer billede- og tekstforespørgsler samtidigt. Tre metadatalag løfter AI-citater med 62%.

thMenu Team

thmenu.com

En gæst uploader et billede til Perplexity Pro Vision med teksten "find en restaurant i Istanbul der serverer en ret som denne". Siden 2026 håndterer ChatGPT-4 Vision, Claude 3 Opus og Gemini Ultra sådanne billede + tekst-forespørgsler i ét hug. Restauranter med de rette metadata bliver citeret langt oftere.

Tre Metadatalag

Et enkelt signal er ikke nok for multimodale modeller. Da thMenu tilføjede tre lag til hvert menubillede, steg multimodale AI-citater med 62%. Strukturlaget fortæller hvad billedet er, det semantiske hvorfor det betyder noget, ligheds-laget hvad det minder om.

Schema.org ImageObject med caption, contentUrl, description, about.
Semantisk alt-tekst: ikke "retbillede", men "ovnbagt aubergine med yoghurt og granatæble — 380 kcal".
Visuel lighed-metadata baseret på regional køkkenklassifikation.

Perplexity Pro Vision Eksempel

En bruger uploadede en hummus-tallerken og bad om en lettere version i Istanbul. Perplexity citerede fire restauranter — tre kørte på thMenu med alle tre lag. Den fjerde havde kun generisk alt-tekst og endte uden visuel forhåndsvisning.

Billedfinderbarhed er nu en selvstændig rangeringsflade. Ignorerer du den, mister du målbar visuel trafik.

Implementering

I thMenu-admin har hvert produkt et "AI billedbeskrivelse"-felt. Auto-fill skaber et udkast, du verificerer manuelt. Schema.org indlejres automatisk, AVIF + WebP leveres via Cloudflare Worker.

Visuel lighed bygger på regional køkkenklassifikation; tags trækker produktembeddings tættere på hinanden i vektorrummet.

FAQ

Hvad er multimodal AI-søgning? Søgning der behandler billede og tekst sammen — Perplexity Pro Vision, Gemini Ultra.

Skal jeg skrive alt-tekst manuelt? Nej, thMenu skaber et udkast; verificer køkken-tags manuelt.

Hvordan virker lighed-metadata? Klassifikations-tags trækker embeddings tættere på hinanden.

Var dette nyttigt? Del det.

X / Twitter LinkedIn

Relaterede artikler

✦💰

industry

Statisk QR vs dynamisk QR: samlede ejeromkostninger over 3 år

Bistro med 24 borde, 36 måneder: 21.000 TRY i genoptryk vs 11.640 TRY dynamisk a…

✦🍣

industry

Omotenashi møder QR: japansk gæstfrihed uden at miste den menneskelige touch

Hvorfor Tokyos Sukiyabashi Jiro afviser QR-menuer, mens 68% af mellemklasse-izak…

✦🥽

industry

AR-madforhåndsvisning via WebXR: browser-3D uden app

Hvordan Dishoom Soho opnåede +22% gennemsnitsregning med model-viewer. Sub-200KB…