Skip to content
기능요금제제휴블로그도움말회사 소개문의하기
무료로 시작하기로그인
블로그로 돌아가기
industry2027-11-156 분 읽기

멀티모달 AI 검색: 이미지+텍스트 결합과 레스토랑 메뉴

ChatGPT-4 Vision, Claude 3 Opus, Gemini Ultra가 이미지와 텍스트 쿼리를 동시에 처리합니다. 3개 메타데이터 레이어로 인용이 62% 증가했습니다.

th

thMenu Team

thmenu.com

사용자가 Perplexity Pro Vision에 사진을 올리며 "이스탄불에서 비슷한 요리를 내는 식당"이라고 묻습니다. 2026년부터 ChatGPT-4 Vision, Claude 3 Opus, Gemini Ultra가 이미지+텍스트 쿼리를 한 번에 처리합니다. 메타데이터를 갖춘 레스토랑은 훨씬 자주 인용됩니다.

3개 메타데이터 레이어

멀티모달 모델에는 단일 신호로는 부족합니다. thMenu가 메뉴 이미지에 3개 레이어를 추가하자 멀티모달 AI 인용률이 62% 증가했습니다. 구조 레이어는 이미지가 무엇인지, 의미 레이어는 왜 중요한지, 유사 레이어는 무엇과 닮았는지 알려줍니다.

  • Schema.org ImageObject: caption, contentUrl, description, about.
  • 의미적 alt-text: "요리 사진"이 아니라 "구운 가지에 요거트와 석류 — 380 kcal".
  • 시각 유사 메타데이터: 지역 요리 분류 태그.

Perplexity Pro Vision 사례

사용자가 후무스 접시를 올리고 이스탄불의 더 가벼운 버전을 물었습니다. Perplexity는 4곳을 인용했고, 3곳이 thMenu와 3개 레이어를 갖춘 곳이었습니다. 네 번째는 일반 alt-text만 있어 이미지 미리보기 없이 마지막에 노출되었습니다.

이미지 검색 가능성은 이제 독립된 랭킹 면입니다. 무시하면 측정 가능한 시각 트래픽을 잃습니다.

적용 방법

thMenu 어드민에서 상품마다 "AI 이미지 설명" 필드가 있습니다. 자동 채움이 초안을 만들고 수동 검토 후 확정합니다. Schema.org가 자동 삽입되고 AVIF + WebP가 Cloudflare Worker로 전달됩니다.

시각 유사도는 지역 요리 분류 기반이며, 태그가 제품 임베딩을 벡터 공간에서 가깝게 만듭니다.

FAQ

멀티모달 AI 검색이란? 이미지와 텍스트를 함께 처리하는 검색 — Perplexity Pro Vision, Gemini Ultra.

alt-text를 직접 써야 하나요? 아니요. thMenu가 초안을 생성하지만 요리 태그는 직접 검증하세요.

유사 메타데이터는 어떻게 작동하나요? 분류 태그가 임베딩을 벡터 공간에서 가깝게 만듭니다.

도움이 되셨나요? 공유해 주세요.