Ein Gast lädt ein Foto in Perplexity Pro Vision hoch und fragt: "Finde ein Restaurant in Istanbul, das ein ähnliches Gericht serviert." Seit 2026 beantworten ChatGPT-4 Vision, Claude 3 Opus und Gemini Ultra solche Bild-plus-Text-Anfragen in einem Durchgang. Restaurants, deren Menübilder die richtigen Metadaten tragen, werden deutlich häufiger zitiert.
Drei Metadaten-Schichten
Ein Signal reicht nicht. Als thMenu drei Schichten pro Bild ergänzte, stieg die multi-modale KI-Zitationsrate um 62%. Die strukturierte Schicht erklärt der Maschine, was das Bild ist; die semantische Schicht erklärt, warum es wichtig ist; die Ähnlichkeitsschicht zeigt, womit es vergleichbar ist.
- Schema.org ImageObject mit caption, contentUrl, description, about.
- Semantischer Alt-Text: nicht "Tellerfoto", sondern "Aubergine mit Joghurt und Granatapfel, 380 kcal".
- Visuelle Ähnlichkeits-Metadaten mit Küchen-Taxonomie und Klassen-Tags.
Perplexity Pro Vision Beispiel
Ein Nutzer lud einen Hummus-Teller hoch und fragte nach einer leichteren Version in Istanbul. Perplexity zitierte vier Restaurants — drei davon nutzten thMenu mit allen drei Schichten. Das vierte hatte nur generischen Alt-Text und landete ohne Bildvorschau am Ende der Antwort.
Bildauffindbarkeit ist heute eine eigenständige Ranking-Oberfläche und keine kosmetische Ergänzung mehr. Wer hier nicht investiert, verliert sichtbar Verkehr aus visuellen Anfragen.
Umsetzung
Im thMenu-Admin gibt es pro Produkt ein Feld "KI-Bildbeschreibung". Auto-Fill liefert einen Entwurf, den du manuell verifizierst. Schema.org ImageObject-Markup wird automatisch eingebettet, AVIF + WebP-Varianten werden über den Cloudflare-Worker ausgeliefert.
Visuelle Ähnlichkeit basiert auf einer regionalen Küchen-Taxonomie. Tags wie Türkisch, Mediterran oder Anatolisch ziehen Produkt-Embeddings im Vektorraum näher zueinander und erhöhen die Zitationschancen.
FAQ
Was ist multi-modale KI-Suche? Suche, die Bild und Text gemeinsam verarbeitet — Perplexity Pro Vision, Gemini Ultra.
Muss ich Alt-Text manuell schreiben? Nein, thMenu generiert Entwürfe; manuelle Verifikation der Küchen-Tags wird aber empfohlen.
Wie funktionieren Ähnlichkeits-Metadaten? Küchen-Taxonomie-Tags rücken Produkt-Embeddings im Vektorraum näher zueinander.
Hilfreich? Teilen Sie es.
Verwandte Artikel
Statischer QR vs. dynamischer QR: 3-Jahres-Gesamtkostenvergleich
Ein 24-Tisch-Bistro rechnet vor: 21.000 TRY für Nachdrucke vs. 11.640 TRY für dy…
Omotenashi trifft QR: Japanische Gastfreundschaft ohne Verlust der Menschlichkeit
Warum Tokios Sukiyabashi Jiro QR-Menüs ablehnt, während 68% der mittleren Izakay…
AR-Essensvorschau via WebXR: Browser-basiertes 3D ohne App
Wie Dishoom Soho mit model-viewer 22% höhere Bestellsummen erzielte. Sub-200KB .…