機能料金プランアフィリエイトブログヘルプ会社概要お問い合わせ

無料で始めるログイン

ブログに戻る

industry2027-11-156 分で読めます

マルチモーダルAI検索:画像+テキストの組み合わせとレストラン

ChatGPT-4 Vision、Claude 3 Opus、Gemini Ultraが画像とテキストを同時処理。3層のメタデータでマルチモーダルAI引用が62%増加。

th

thMenu Team

thmenu.com

ユーザーがPerplexity Pro Visionに写真をアップロードし「イスタンブールで似た料理を出すレストラン」と入力します。2026年以降、ChatGPT-4 Vision、Claude 3 Opus、Gemini Ultraはこうした画像+テキストのクエリを一度に処理します。正しいメタデータを持つレストランは引用される頻度が格段に増えます。

3層のメタデータ

単一のシグナルではマルチモーダルモデルには足りません。thMenuがメニュー画像に3層を追加したところ、マルチモーダルAI引用率が62%上昇しました。構造化層は「これは何か」、意味層は「なぜ重要か」、類似層は「何に似ているか」を伝えます。

Schema.org ImageObject:caption、contentUrl、description、aboutを記述。
意味的alt-text:「料理写真」ではなく「焼きナスのヨーグルトとザクロ添え — 380 kcal」。
視覚類似メタデータ:地域料理分類でタグ付け。

Perplexity Pro Visionの実例

ユーザーがフムスをアップロードしイスタンブールで軽めの版を求めました。Perplexityは4店を引用し、うち3店がthMenuで3層を備えていました。4店目は汎用alt-textのみで画像プレビューなしで末尾に。

画像の発見性は独立したランキング面になりました。無視すれば視覚トラフィックを失います。

導入手順

thMenu管理画面で各商品に「AI画像説明」欄があります。自動入力で下書きを作り手動で確認。Schema.orgは自動埋め込み、AVIF + WebPはCloudflare Workerで配信されます。

視覚類似は地域料理分類に基づき、タグが製品埋め込みをベクトル空間で近づけます。

よくある質問

マルチモーダルAI検索とは? 画像とテキストを同時処理する検索 — Perplexity Pro Vision、Gemini Ultra。

alt-textを手書きしますか? いいえ、thMenuが下書きを生成。料理タグは手動で確認を。

類似メタデータの仕組みは? 分類タグが製品埋め込みをベクトル空間で近づけます。

お役に立ちましたか?シェアしてください。

X / Twitter LinkedIn

関連記事

静的QRと動的QR：3年間の総保有コスト比較

24卓ビストロの36ヶ月実額：21,000リラの再印刷費vs 11,640リラの動的サブスク。6ヶ月目で損益分岐。…

おもてなしとQR:日本のホスピタリティを損なわない融合

なぜ銀座の数寄屋橋次郎はQRメニューを拒むのか、なぜ中堅居酒屋の68%が2024年に導入したのか。日本のハイブリッドモデルの核心。…

WebXRによる料理AR プレビュー：アプリ不要のブラウザ3D

ロンドンSohoのDishoomがmodel-viewerで客単価22%向上を達成。200KB以下の.glb最適化と月数セントのR2ホスティング。…