Een gast uploadt een foto naar Perplexity Pro Vision met "vind een restaurant in Istanbul dat dit gerecht serveert". Sinds 2026 verwerken ChatGPT-4 Vision, Claude 3 Opus en Gemini Ultra dergelijke beeld- en tekstqueries in één keer. Restaurants met de juiste metadata worden veel vaker geciteerd.
Drie Metadata-Lagen
Eén signaal volstaat niet voor multimodale modellen. Toen thMenu drie lagen toevoegde, stegen multimodale AI-citaties met 62%. De structuurlaag vertelt wat het beeld is, de semantische laag waarom het ertoe doet, de gelijkenislaag waar het op lijkt.
- Schema.org ImageObject met caption, contentUrl, description, about.
- Semantische alt-text: niet "gerechtfoto" maar "gegrilde aubergine met yoghurt en granaatappel — 380 kcal".
- Visuele gelijkenis-metadata met regionale keukenkundige taxonomie.
Perplexity Pro Vision Voorbeeld
Een gebruiker uploadde een hummusbordje en vroeg om een lichtere versie in Istanbul. Perplexity citeerde vier restaurants — drie ervan draaiden op thMenu met alle drie de lagen. Het vierde had alleen generieke alt-text en eindigde zonder beeldpreview.
Beeldvindbaarheid is nu een zelfstandig rankingoppervlak. Negeren betekent meetbaar visueel verkeer verliezen.
Implementatie
In de thMenu-admin heeft elk product een veld "AI-beeldbeschrijving". Auto-fill maakt een concept dat je handmatig verifieert. Schema.org wordt automatisch ingebed, AVIF + WebP via Cloudflare Worker.
Visuele gelijkenis is gebaseerd op regionale keukenkundige taxonomie. Tags brengen product-embeddings dichter bij elkaar in de vectorruimte.
FAQ
Wat is multimodale AI-zoekopdracht? Zoeken dat beeld en tekst samen verwerkt — Perplexity Pro Vision, Gemini Ultra.
Moet ik alt-text handmatig schrijven? Nee, thMenu genereert een concept; verifieer keukenkundige tags handmatig.
Hoe werken gelijkenis-metadata? Taxonomie-tags brengen embeddings dichter bij elkaar.
Was dit nuttig? Deel het.
Gerelateerde artikelen
Statische QR vs dynamische QR: totale eigendomskosten over 3 jaar
24-tafel bistro op 36 maanden: 21.000 TRY herdrukkosten vs 11.640 TRY dynamisch …
Omotenashi ontmoet QR: Japanse gastvrijheid zonder de menselijke maat te verliezen
Waarom Sukiyabashi Jiro in Tokio QR-menu's weigert terwijl 68% van de middenklas…
AR-gerechtvoorbeeld via WebXR: browser-3D zonder app
Hoe Dishoom Soho +22% gemiddelde besteding bereikte met model-viewer. Sub-200KB …