Skip to content
FunkciókÁrakPartnerekBlogSúgóRólunkKapcsolat
KezdésBejelentkezés
Vissza a Bloghoz
industry2027-11-156 perc olvasás

Multimodális MI Keresés: Kép és Szöveg Kombinációja Éttermekben

A ChatGPT-4 Vision, Claude 3 Opus és Gemini Ultra egyszerre dolgozza fel a kép és szöveg lekéréseket. Három metaadat-réteg 62%-kal növeli az MI-hivatkozásokat.

th

thMenu Team

thmenu.com

Egy vendég képet tölt fel a Perplexity Pro Visionra "találj Isztambulban éttermet, amely hasonló ételt szolgál fel" szöveggel. 2026 óta a ChatGPT-4 Vision, Claude 3 Opus és Gemini Ultra egyetlen menetben dolgozza fel az ilyen kép + szöveg lekéréseket. A megfelelő metaadatokkal rendelkező éttermekre sokkal gyakrabban hivatkoznak.

Három Metaadat-Réteg

Egyetlen jel kevés a multimodális modelleknek. Amikor a thMenu három réteget adott minden menüképhez, a multimodális MI-hivatkozások 62%-kal nőttek. A strukturális réteg megmondja mi a kép, a szemantikai miért fontos, a hasonlósági mire hasonlít.

  • Schema.org ImageObject: caption, contentUrl, description, about.
  • Szemantikus alt-szöveg: nem "ételfotó", hanem "sült padlizsán joghurttal és gránátalmával — 380 kcal".
  • Vizuális hasonlósági metaadat regionális konyhai taxonómiával.

Perplexity Pro Vision Példa

Egy felhasználó humuszt töltött fel és könnyebb verziót kért Isztambulban. A Perplexity négy éttermet idézett — három thMenu-vel és teljes három réteggel. A negyediknek csak általános alt-szövege volt, és a végén szerepelt vizuális előnézet nélkül.

A képek felfedezhetősége ma önálló rangsorolási felület. Figyelmen kívül hagyása mérhető vizuális forgalom elvesztését jelenti.

Megvalósítás

A thMenu adminban minden termékhez tartozik "MI képleírás" mező. Az automatikus kitöltés vázlatot készít, te kézzel ellenőrzöd. A Schema.org automatikusan beágyazódik, AVIF + WebP a Cloudflare Workeren át.

A vizuális hasonlóság regionális konyhai taxonómián alapul; a címkék közelítik a termékbeágyazásokat a vektortérben.

GYIK

Mi a multimodális MI keresés? Olyan keresés, amely kép és szöveg együttes feldolgozást végez — Perplexity Pro Vision, Gemini Ultra.

Kézzel kell írnom az alt-szöveget? Nem, a thMenu vázlatot készít; a konyhai címkéket manuálisan ellenőrizd.

Hogyan működnek a hasonlósági metaadatok? A taxonómia címkéi közelítik a beágyazásokat a vektortérben.

Hasznosnak találtad? Oszd meg.