Un cliente carica una foto su Perplexity Pro Vision con il testo "trova un ristorante a Istanbul che serve un piatto come questo". Dal 2026 ChatGPT-4 Vision, Claude 3 Opus e Gemini Ultra elaborano queste richieste immagine + testo in un solo passaggio. I ristoranti con metadati corretti vengono citati molto più spesso.
Tre Livelli di Metadati
Un solo segnale non basta ai modelli multimodali. Quando thMenu ha aggiunto tre livelli a ogni immagine, le citazioni IA multimodali sono salite del 62%. Il livello strutturato dice cosa è l'immagine, quello semantico perché conta, quello di somiglianza a cosa assomiglia.
- Schema.org ImageObject con caption, contentUrl, description, about.
- Alt-text semantico: non "foto piatto" ma "melanzana al forno con yogurt e melograno — 380 kcal".
- Metadati di somiglianza visiva con tassonomia culinaria regionale.
Esempio Perplexity Pro Vision
Un utente ha caricato un piatto di hummus chiedendo una versione più leggera a Istanbul. Perplexity ha citato quattro ristoranti — tre con thMenu e tutti e tre i livelli. Il quarto aveva solo alt-text generico ed è finito senza anteprima visiva.
La trovabilità delle immagini è ormai una superficie di ranking autonoma. Ignorarla significa perdere traffico visivo misurabile.
Implementazione
Nel pannello thMenu ogni prodotto ha un campo "Descrizione IA immagine". L'auto-fill genera una bozza che verifichi manualmente. Schema.org ImageObject viene inserito automaticamente, AVIF + WebP serviti via Cloudflare Worker.
La somiglianza visiva si basa su una tassonomia culinaria regionale. I tag avvicinano gli embedding dei prodotti nello spazio vettoriale.
FAQ
Cos'è la ricerca IA multimodale? Ricerca che elabora immagine e testo insieme — Perplexity Pro Vision, Gemini Ultra.
Devo scrivere l'alt-text a mano? No, thMenu genera una bozza; verifica manualmente i tag di cucina.
Come funzionano i metadati di somiglianza? I tag di tassonomia avvicinano gli embedding di prodotto.
Ti è stato utile? Condividilo.
Articoli correlati
QR statico vs QR dinamico: costo totale a 3 anni a confronto
Un bistrot da 24 tavoli mette in fila i numeri: 21.000 TRY di ristampe vs 11.640…
Omotenashi e QR: ospitalità giapponese senza perdere il tocco umano
Perché il Sukiyabashi Jiro di Tokyo rifiuta i menu QR mentre il 68% delle izakay…
Anteprima AR dei piatti via WebXR: 3D nel browser senza app
Come Dishoom Soho ha ottenuto +22% sullo scontrino medio con model-viewer. Ottim…