Skip to content
FuncionalidadesPreciosAfiliadosBlogAyudaNosotrosContacto
ComenzarIniciar sesión
Volver al Blog
industry2027-11-156 min de lectura

Búsqueda IA Multimodal: Combinar Imagen y Texto en Restaurantes

ChatGPT-4 Vision, Claude 3 Opus y Gemini Ultra responden a consultas de imagen y texto a la vez. Tres capas de metadatos aumentan las citas IA un 62%.

th

thMenu Team

thmenu.com

Un comensal sube una foto a Perplexity Pro Vision con el texto "encuentra un restaurante en Estambul que sirva un plato así". Desde 2026 ChatGPT-4 Vision, Claude 3 Opus y Gemini Ultra resuelven estas consultas en una sola pasada. Los restaurantes cuyas imágenes llevan los metadatos correctos se citan mucho más a menudo.

Tres Capas de Metadatos

Una sola señal no basta para los modelos multimodales. Cuando thMenu añadió tres capas a cada imagen, las citas IA multimodales subieron un 62%. La capa estructurada dice qué es la imagen, la semántica por qué importa, la de similitud a qué se parece.

  • Schema.org ImageObject con caption, contentUrl, description, about.
  • Alt-text semántico: no "foto de plato" sino "berenjena al horno con yogur y granada — 380 kcal".
  • Metadatos de similitud visual con taxonomía culinaria regional.

Perplexity Pro Vision en Acción

Un usuario subió un plato de hummus y pidió una versión más ligera en Estambul. Perplexity citó cuatro restaurantes — tres usaban thMenu con las tres capas. El cuarto solo tenía alt-text genérico y quedó al final sin previsualización visual.

La encontrabilidad de imágenes ya es una superficie de ranking en sí. Ignorarla significa perder tráfico visual medible.

Cómo Implementarlo

En el panel de thMenu cada producto tiene un campo "Descripción IA de imagen". El auto-fill genera un borrador que verificas manualmente. Schema.org ImageObject se incrusta automáticamente, AVIF + WebP se sirven vía Cloudflare Worker.

La similitud visual se basa en una taxonomía culinaria regional. Los tags acercan los embeddings de producto en el espacio vectorial y multiplican las oportunidades de citación.

FAQ

¿Qué es la búsqueda IA multimodal? Una búsqueda que procesa imagen y texto a la vez — Perplexity Pro Vision, Gemini Ultra.

¿Tengo que escribir el alt-text a mano? No, thMenu lo genera; verifica manualmente los tags de cocina.

¿Cómo funcionan los metadatos de similitud? Tags de taxonomía acercan los embeddings de producto en el espacio vectorial.

¿Te resultó útil? Compártelo.