ユーザーがPerplexity Pro Visionに写真をアップロードし「イスタンブールで似た料理を出すレストラン」と入力します。2026年以降、ChatGPT-4 Vision、Claude 3 Opus、Gemini Ultraはこうした画像+テキストのクエリを一度に処理します。正しいメタデータを持つレストランは引用される頻度が格段に増えます。
3層のメタデータ
単一のシグナルではマルチモーダルモデルには足りません。thMenuがメニュー画像に3層を追加したところ、マルチモーダルAI引用率が62%上昇しました。構造化層は「これは何か」、意味層は「なぜ重要か」、類似層は「何に似ているか」を伝えます。
- Schema.org ImageObject:caption、contentUrl、description、aboutを記述。
- 意味的alt-text:「料理写真」ではなく「焼きナスのヨーグルトとザクロ添え — 380 kcal」。
- 視覚類似メタデータ:地域料理分類でタグ付け。
Perplexity Pro Visionの実例
ユーザーがフムスをアップロードしイスタンブールで軽めの版を求めました。Perplexityは4店を引用し、うち3店がthMenuで3層を備えていました。4店目は汎用alt-textのみで画像プレビューなしで末尾に。
画像の発見性は独立したランキング面になりました。無視すれば視覚トラフィックを失います。
導入手順
thMenu管理画面で各商品に「AI画像説明」欄があります。自動入力で下書きを作り手動で確認。Schema.orgは自動埋め込み、AVIF + WebPはCloudflare Workerで配信されます。
視覚類似は地域料理分類に基づき、タグが製品埋め込みをベクトル空間で近づけます。
よくある質問
マルチモーダルAI検索とは? 画像とテキストを同時処理する検索 — Perplexity Pro Vision、Gemini Ultra。
alt-textを手書きしますか? いいえ、thMenuが下書きを生成。料理タグは手動で確認を。
類似メタデータの仕組みは? 分類タグが製品埋め込みをベクトル空間で近づけます。
お役に立ちましたか?シェアしてください。
関連記事
静的QRと動的QR:3年間の総保有コスト比較
24卓ビストロの36ヶ月実額:21,000リラの再印刷費vs 11,640リラの動的サブスク。6ヶ月目で損益分岐。…
おもてなしとQR:日本のホスピタリティを損なわない融合
なぜ銀座の数寄屋橋次郎はQRメニューを拒むのか、なぜ中堅居酒屋の68%が2024年に導入したのか。日本のハイブリッドモデルの核心。…
WebXRによる料理AR プレビュー:アプリ不要のブラウザ3D
ロンドンSohoのDishoomがmodel-viewerで客単価22%向上を達成。200KB以下の.glb最適化と月数セントのR2ホスティング。…