Um cliente envia uma foto ao Perplexity Pro Vision com o texto "encontre um restaurante em Istambul que sirva um prato assim". Desde 2026 ChatGPT-4 Vision, Claude 3 Opus e Gemini Ultra resolvem essas consultas imagem + texto em uma única passagem. Restaurantes com metadados corretos são citados muito mais.
Três Camadas de Metadados
Um único sinal não basta para modelos multimodais. Quando o thMenu adicionou três camadas a cada imagem, as citações IA multimodais subiram 62%. A camada estruturada diz o que a imagem é, a semântica diz por que importa, a de similaridade diz com o que se parece.
- Schema.org ImageObject com caption, contentUrl, description, about.
- Alt-text semântico: não "foto do prato", mas "berinjela assada com iogurte e romã — 380 kcal".
- Metadados de similaridade visual com taxonomia culinária regional.
Exemplo Perplexity Pro Vision
Um usuário enviou um prato de homus pedindo uma versão mais leve em Istambul. Perplexity citou quatro restaurantes — três usavam thMenu com as três camadas. O quarto só tinha alt-text genérico e ficou no final sem prévia visual.
A descobribilidade de imagens é hoje uma superfície de ranking própria. Ignorá-la significa perder tráfego visual mensurável.
Implementação
No admin do thMenu cada produto tem um campo "Descrição IA da imagem". Auto-fill gera o rascunho, você verifica manualmente. Schema.org é embutido automaticamente, AVIF + WebP servidos via Cloudflare Worker.
A similaridade visual usa uma taxonomia culinária regional. Tags aproximam embeddings de produto no espaço vetorial e multiplicam as chances de citação.
FAQ
O que é busca IA multimodal? Busca que processa imagem e texto juntos — Perplexity Pro Vision, Gemini Ultra.
Preciso escrever alt-text manualmente? Não, thMenu gera rascunho; verifique tags de cozinha manualmente.
Como funcionam os metadados de similaridade? Tags de taxonomia aproximam embeddings no espaço vetorial.
Achou útil? Compartilhe.
Artigos relacionados
QR estático vs QR dinâmico: custo total em 3 anos comparado
Um bistrô de 24 mesas detalha 36 meses: 21.000 TRY em reimpressões contra 11.640…
Omotenashi e QR: hospitalidade japonesa sem perder o toque humano
Por que o Sukiyabashi Jiro de Tóquio recusa menus QR enquanto 68% das izakayas m…
Pré-visualização AR de pratos via WebXR: 3D no navegador sem app
Como o Dishoom Soho conseguiu +22% no ticket médio com model-viewer. Otimização …