Skip to content
FuncionalidadesPreçosAfiliadosBlogAjudaSobre nósContato
ComeçarEntrar
Voltar ao Blog
industry2027-11-156 min de leitura

Busca IA Multimodal: Combinação de Imagem e Texto para Restaurantes

ChatGPT-4 Vision, Claude 3 Opus e Gemini Ultra respondem a consultas de imagem e texto ao mesmo tempo. Três camadas de metadados aumentam citações IA em 62%.

th

thMenu Team

thmenu.com

Um cliente envia uma foto ao Perplexity Pro Vision com o texto "encontre um restaurante em Istambul que sirva um prato assim". Desde 2026 ChatGPT-4 Vision, Claude 3 Opus e Gemini Ultra resolvem essas consultas imagem + texto em uma única passagem. Restaurantes com metadados corretos são citados muito mais.

Três Camadas de Metadados

Um único sinal não basta para modelos multimodais. Quando o thMenu adicionou três camadas a cada imagem, as citações IA multimodais subiram 62%. A camada estruturada diz o que a imagem é, a semântica diz por que importa, a de similaridade diz com o que se parece.

  • Schema.org ImageObject com caption, contentUrl, description, about.
  • Alt-text semântico: não "foto do prato", mas "berinjela assada com iogurte e romã — 380 kcal".
  • Metadados de similaridade visual com taxonomia culinária regional.

Exemplo Perplexity Pro Vision

Um usuário enviou um prato de homus pedindo uma versão mais leve em Istambul. Perplexity citou quatro restaurantes — três usavam thMenu com as três camadas. O quarto só tinha alt-text genérico e ficou no final sem prévia visual.

A descobribilidade de imagens é hoje uma superfície de ranking própria. Ignorá-la significa perder tráfego visual mensurável.

Implementação

No admin do thMenu cada produto tem um campo "Descrição IA da imagem". Auto-fill gera o rascunho, você verifica manualmente. Schema.org é embutido automaticamente, AVIF + WebP servidos via Cloudflare Worker.

A similaridade visual usa uma taxonomia culinária regional. Tags aproximam embeddings de produto no espaço vetorial e multiplicam as chances de citação.

FAQ

O que é busca IA multimodal? Busca que processa imagem e texto juntos — Perplexity Pro Vision, Gemini Ultra.

Preciso escrever alt-text manualmente? Não, thMenu gera rascunho; verifique tags de cozinha manualmente.

Como funcionam os metadados de similaridade? Tags de taxonomia aproximam embeddings no espaço vetorial.

Achou útil? Compartilhe.