HyDE(仮想文書埋め込み) とは何ですか?

HyDE(Hypothetical Document Embeddings)は、ユーザー質問から LLM に「仮想の回答文書」を生成させその埋め込みで検索する手法です。短い質問と長い文書のミスマッチを解消し検索精度を高めます。

HyDE(仮想文書埋め込み) (HyDE) とは — 意味・実装・関連用語 | AIマーケティング用語集

詳細解説

HyDE(Hypothetical Document Embeddings、仮想文書埋め込み、ハイディ)は、Gao ら(Carnegie Mellon University)が2022年12月に提案したゼロショット密検索手法で、ユーザーの短い質問をそのまま埋め込みで検索する代わりに、まず LLM に「この質問への仮想的な回答文書」を1つ生成させ、その仮想文書の埋め込みを使って実際の文書コーパスを検索する2段階プロセスを取ります。背景にある洞察は、「短く曖昧な質問」と「長く具体的な回答文書」では文体・語彙・情報密度が異なるため、両者の埋め込みベクトルが意味は近くても embedding 空間では離れていることが多い、というミスマッチ問題です。LLM にいったん「ありそうな答え」をシミュレートさせれば、生成文書と正解文書は文体・語彙が近くなり、コサイン類似度ベースの検索精度が大幅に向上します。BEIR ベンチマークなどで教師なしのデンスリトリーバル(Contriever 等)の検索性能を10-20%向上させ、ファインチューニング済みのデンスリトリーバルに匹敵する結果を出しました。実装は単純で、LangChain・LlamaIndex・Haystack などの主要 RAG フレームワークに組み込み済みで、HypotheticalDocumentEmbedder のような数行で利用できます。デメリットは LLM 呼び出しコストとレイテンシ追加で、リランカーや GraphRAG・BM25 ハイブリッド検索と組み合わせるのが実用上の標準パターンです。

実装例 / 使い方

01BEIR ベンチマークで教師なしモデルの検索性能を10-20%向上させた事例があります
02LangChain・LlamaIndex の HyDE モジュールで簡単に実装できます
03リランカーや GraphRAG と組み合わせて精度をさらに高められます

参考・出典

HyDE(仮想文書埋め込み)を、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

細マッチョ企業診断 (3分・無料)個別に相談する

営業時間平日10-18時 / 通常24時間以内に返信

HyDE(仮想文書埋め込み)HyDE

詳細解説

実装例 / 使い方

参考・出典

関連する用語

RAG

Retrieval

GraphRAG(知識グラフRAG)

Re-ranker(リランカー)

セマンティック検索

HyDE(仮想文書埋め込み)を、実際に活用する