Un client envoie une photo à Perplexity Pro Vision en écrivant "trouve un restaurant à Istanbul qui sert ce plat". Depuis 2026, ChatGPT-4 Vision, Claude 3 Opus et Gemini Ultra traitent ces requêtes image + texte en une seule passe. Les restaurants dont les images de menu portent les bonnes métadonnées sont cités beaucoup plus souvent.
Trois Couches de Métadonnées
Un seul signal ne suffit pas pour les modèles multimodaux. Quand thMenu a ajouté trois couches à chaque image de menu, le taux de citation IA multimodale a grimpé de 62%. La couche structurée dit à la machine ce qu'est l'image, la couche sémantique pourquoi elle compte, la couche de similarité ce à quoi elle ressemble.
- Schema.org ImageObject avec caption, contentUrl, description, about.
- Alt-text sémantique: pas "photo de plat" mais "aubergine grillée au yaourt et grenade — 380 kcal".
- Métadonnées de similarité avec taxonomie culinaire régionale.
Exemple Perplexity Pro Vision
Un utilisateur a envoyé une assiette de houmous et a demandé une version plus légère à Istanbul. Perplexity a cité quatre restaurants — trois utilisaient thMenu avec les trois couches. Le quatrième n'avait qu'un alt-text générique et a terminé sans aperçu visuel.
La découvrabilité des images devient une surface de classement à part entière. L'ignorer revient à perdre du trafic visuel mesurable.
Mise en Place
Dans l'admin thMenu chaque produit a un champ "Description IA d'image". L'auto-fill génère un brouillon que vous vérifiez manuellement. Le balisage Schema.org est intégré automatiquement, AVIF + WebP servis via Cloudflare Worker.
La similarité visuelle repose sur une taxonomie culinaire régionale. Les tags rapprochent les embeddings produits dans l'espace vectoriel et multiplient les chances de citation.
FAQ
Qu'est-ce que la recherche IA multimodale? Une recherche qui traite image et texte ensemble — Perplexity Pro Vision et Gemini Ultra.
Faut-il écrire l'alt-text à la main? Non, thMenu en génère un brouillon, mais vérifiez les tags manuellement.
Comment fonctionne la similarité visuelle? Les tags de cuisine rapprochent les embeddings produits dans l'espace vectoriel.
Cet article vous a été utile ? Partagez-le.
Articles connexes
QR statique ou QR dynamique : coût total sur 3 ans comparé
Un bistrot 24 tables détaille 36 mois de coûts : 21 000 TRY de réimpressions vs …
Omotenashi et QR : l'hospitalité japonaise sans perdre l'humain
Pourquoi le Sukiyabashi Jiro de Tokyo refuse les menus QR tandis que 68% des iza…
Aperçu AR des plats via WebXR : 3D dans le navigateur sans app
Comment Dishoom Soho a atteint +22% sur le panier moyen grâce à model-viewer. Op…