Un comensal sube una foto a Perplexity Pro Vision con el texto "encuentra un restaurante en Estambul que sirva un plato así". Desde 2026 ChatGPT-4 Vision, Claude 3 Opus y Gemini Ultra resuelven estas consultas en una sola pasada. Los restaurantes cuyas imágenes llevan los metadatos correctos se citan mucho más a menudo.
Tres Capas de Metadatos
Una sola señal no basta para los modelos multimodales. Cuando thMenu añadió tres capas a cada imagen, las citas IA multimodales subieron un 62%. La capa estructurada dice qué es la imagen, la semántica por qué importa, la de similitud a qué se parece.
- Schema.org ImageObject con caption, contentUrl, description, about.
- Alt-text semántico: no "foto de plato" sino "berenjena al horno con yogur y granada — 380 kcal".
- Metadatos de similitud visual con taxonomía culinaria regional.
Perplexity Pro Vision en Acción
Un usuario subió un plato de hummus y pidió una versión más ligera en Estambul. Perplexity citó cuatro restaurantes — tres usaban thMenu con las tres capas. El cuarto solo tenía alt-text genérico y quedó al final sin previsualización visual.
La encontrabilidad de imágenes ya es una superficie de ranking en sí. Ignorarla significa perder tráfico visual medible.
Cómo Implementarlo
En el panel de thMenu cada producto tiene un campo "Descripción IA de imagen". El auto-fill genera un borrador que verificas manualmente. Schema.org ImageObject se incrusta automáticamente, AVIF + WebP se sirven vía Cloudflare Worker.
La similitud visual se basa en una taxonomía culinaria regional. Los tags acercan los embeddings de producto en el espacio vectorial y multiplican las oportunidades de citación.
FAQ
¿Qué es la búsqueda IA multimodal? Una búsqueda que procesa imagen y texto a la vez — Perplexity Pro Vision, Gemini Ultra.
¿Tengo que escribir el alt-text a mano? No, thMenu lo genera; verifica manualmente los tags de cocina.
¿Cómo funcionan los metadatos de similitud? Tags de taxonomía acercan los embeddings de producto en el espacio vectorial.
¿Te resultó útil? Compártelo.
Artículos relacionados
QR estático vs QR dinámico: coste total a 3 años comparado
Un bistró de 24 mesas detalla 36 meses: 21 000 TRY en reimpresiones frente a 11 …
Omotenashi y QR: Hospitalidad japonesa sin perder el toque humano
Por qué el Sukiyabashi Jiro de Tokio rechaza los menús QR mientras el 68% de las…
Vista previa AR de platos vía WebXR: 3D en navegador sin app
Cómo Dishoom Soho logró +22% en ticket medio con model-viewer. Optimización .glb…