Skip to content
機能料金プランアフィリエイトブログヘルプ会社概要お問い合わせ
無料で始めるログイン
ブログに戻る
industry2027-11-156 分で読めます

マルチモーダルAI検索:画像+テキストの組み合わせとレストラン

ChatGPT-4 Vision、Claude 3 Opus、Gemini Ultraが画像とテキストを同時処理。3層のメタデータでマルチモーダルAI引用が62%増加。

th

thMenu Team

thmenu.com

ユーザーがPerplexity Pro Visionに写真をアップロードし「イスタンブールで似た料理を出すレストラン」と入力します。2026年以降、ChatGPT-4 Vision、Claude 3 Opus、Gemini Ultraはこうした画像+テキストのクエリを一度に処理します。正しいメタデータを持つレストランは引用される頻度が格段に増えます。

3層のメタデータ

単一のシグナルではマルチモーダルモデルには足りません。thMenuがメニュー画像に3層を追加したところ、マルチモーダルAI引用率が62%上昇しました。構造化層は「これは何か」、意味層は「なぜ重要か」、類似層は「何に似ているか」を伝えます。

  • Schema.org ImageObject:caption、contentUrl、description、aboutを記述。
  • 意味的alt-text:「料理写真」ではなく「焼きナスのヨーグルトとザクロ添え — 380 kcal」。
  • 視覚類似メタデータ:地域料理分類でタグ付け。

Perplexity Pro Visionの実例

ユーザーがフムスをアップロードしイスタンブールで軽めの版を求めました。Perplexityは4店を引用し、うち3店がthMenuで3層を備えていました。4店目は汎用alt-textのみで画像プレビューなしで末尾に。

画像の発見性は独立したランキング面になりました。無視すれば視覚トラフィックを失います。

導入手順

thMenu管理画面で各商品に「AI画像説明」欄があります。自動入力で下書きを作り手動で確認。Schema.orgは自動埋め込み、AVIF + WebPはCloudflare Workerで配信されます。

視覚類似は地域料理分類に基づき、タグが製品埋め込みをベクトル空間で近づけます。

よくある質問

マルチモーダルAI検索とは? 画像とテキストを同時処理する検索 — Perplexity Pro Vision、Gemini Ultra。

alt-textを手書きしますか? いいえ、thMenuが下書きを生成。料理タグは手動で確認を。

類似メタデータの仕組みは? 分類タグが製品埋め込みをベクトル空間で近づけます。

お役に立ちましたか?シェアしてください。