Skip to content
FunktionenPreisePartnerBlogHilfeÜber unsKontakt
LoslegenAnmelden
Zurück zum Blog
industry2027-11-156 Min. Lesezeit

Multi-Modale KI-Suche: Bild und Text gemeinsam für Restaurants

ChatGPT-4 Vision, Claude 3 Opus und Gemini Ultra verarbeiten Bild- und Textanfragen gleichzeitig. Drei Metadaten-Schichten steigern KI-Zitate um 62%.

th

thMenu Team

thmenu.com

Ein Gast lädt ein Foto in Perplexity Pro Vision hoch und fragt: "Finde ein Restaurant in Istanbul, das ein ähnliches Gericht serviert." Seit 2026 beantworten ChatGPT-4 Vision, Claude 3 Opus und Gemini Ultra solche Bild-plus-Text-Anfragen in einem Durchgang. Restaurants, deren Menübilder die richtigen Metadaten tragen, werden deutlich häufiger zitiert.

Drei Metadaten-Schichten

Ein Signal reicht nicht. Als thMenu drei Schichten pro Bild ergänzte, stieg die multi-modale KI-Zitationsrate um 62%. Die strukturierte Schicht erklärt der Maschine, was das Bild ist; die semantische Schicht erklärt, warum es wichtig ist; die Ähnlichkeitsschicht zeigt, womit es vergleichbar ist.

  • Schema.org ImageObject mit caption, contentUrl, description, about.
  • Semantischer Alt-Text: nicht "Tellerfoto", sondern "Aubergine mit Joghurt und Granatapfel, 380 kcal".
  • Visuelle Ähnlichkeits-Metadaten mit Küchen-Taxonomie und Klassen-Tags.

Perplexity Pro Vision Beispiel

Ein Nutzer lud einen Hummus-Teller hoch und fragte nach einer leichteren Version in Istanbul. Perplexity zitierte vier Restaurants — drei davon nutzten thMenu mit allen drei Schichten. Das vierte hatte nur generischen Alt-Text und landete ohne Bildvorschau am Ende der Antwort.

Bildauffindbarkeit ist heute eine eigenständige Ranking-Oberfläche und keine kosmetische Ergänzung mehr. Wer hier nicht investiert, verliert sichtbar Verkehr aus visuellen Anfragen.

Umsetzung

Im thMenu-Admin gibt es pro Produkt ein Feld "KI-Bildbeschreibung". Auto-Fill liefert einen Entwurf, den du manuell verifizierst. Schema.org ImageObject-Markup wird automatisch eingebettet, AVIF + WebP-Varianten werden über den Cloudflare-Worker ausgeliefert.

Visuelle Ähnlichkeit basiert auf einer regionalen Küchen-Taxonomie. Tags wie Türkisch, Mediterran oder Anatolisch ziehen Produkt-Embeddings im Vektorraum näher zueinander und erhöhen die Zitationschancen.

FAQ

Was ist multi-modale KI-Suche? Suche, die Bild und Text gemeinsam verarbeitet — Perplexity Pro Vision, Gemini Ultra.

Muss ich Alt-Text manuell schreiben? Nein, thMenu generiert Entwürfe; manuelle Verifikation der Küchen-Tags wird aber empfohlen.

Wie funktionieren Ähnlichkeits-Metadaten? Küchen-Taxonomie-Tags rücken Produkt-Embeddings im Vektorraum näher zueinander.

Hilfreich? Teilen Sie es.