Skip to content
FunzionalitàPrezziAffiliatiBlogAiutoChi siamoContatti
Inizia oraAccedi
Torna al Blog
industry2027-11-156 min di lettura

Ricerca IA Multimodale: Combinazione Immagine e Testo per Ristoranti

ChatGPT-4 Vision, Claude 3 Opus e Gemini Ultra rispondono insieme a query immagine e testo. Tre livelli di metadati aumentano le citazioni IA del 62%.

th

thMenu Team

thmenu.com

Un cliente carica una foto su Perplexity Pro Vision con il testo "trova un ristorante a Istanbul che serve un piatto come questo". Dal 2026 ChatGPT-4 Vision, Claude 3 Opus e Gemini Ultra elaborano queste richieste immagine + testo in un solo passaggio. I ristoranti con metadati corretti vengono citati molto più spesso.

Tre Livelli di Metadati

Un solo segnale non basta ai modelli multimodali. Quando thMenu ha aggiunto tre livelli a ogni immagine, le citazioni IA multimodali sono salite del 62%. Il livello strutturato dice cosa è l'immagine, quello semantico perché conta, quello di somiglianza a cosa assomiglia.

  • Schema.org ImageObject con caption, contentUrl, description, about.
  • Alt-text semantico: non "foto piatto" ma "melanzana al forno con yogurt e melograno — 380 kcal".
  • Metadati di somiglianza visiva con tassonomia culinaria regionale.

Esempio Perplexity Pro Vision

Un utente ha caricato un piatto di hummus chiedendo una versione più leggera a Istanbul. Perplexity ha citato quattro ristoranti — tre con thMenu e tutti e tre i livelli. Il quarto aveva solo alt-text generico ed è finito senza anteprima visiva.

La trovabilità delle immagini è ormai una superficie di ranking autonoma. Ignorarla significa perdere traffico visivo misurabile.

Implementazione

Nel pannello thMenu ogni prodotto ha un campo "Descrizione IA immagine". L'auto-fill genera una bozza che verifichi manualmente. Schema.org ImageObject viene inserito automaticamente, AVIF + WebP serviti via Cloudflare Worker.

La somiglianza visiva si basa su una tassonomia culinaria regionale. I tag avvicinano gli embedding dei prodotti nello spazio vettoriale.

FAQ

Cos'è la ricerca IA multimodale? Ricerca che elabora immagine e testo insieme — Perplexity Pro Vision, Gemini Ultra.

Devo scrivere l'alt-text a mano? No, thMenu genera una bozza; verifica manualmente i tag di cucina.

Come funzionano i metadati di somiglianza? I tag di tassonomia avvicinano gli embedding di prodotto.

Ti è stato utile? Condividilo.