HyDE(仮想文書埋め込み)HyDE
HyDE(Hypothetical Document Embeddings)は、ユーザー質問から LLM に「仮想の回答文書」を生成させその埋め込みで検索する手法です。短い質問と長い文書のミスマッチを解消し検索精度を高めます。
詳細解説
HyDE(Hypothetical Document Embeddings、仮想文書埋め込み、ハイディ)は、Gao ら(Carnegie Mellon University)が2022年12月に提案したゼロショット密検索手法で、ユーザーの短い質問をそのまま埋め込みで検索する代わりに、まず LLM に「この質問への仮想的な回答文書」を1つ生成させ、その仮想文書の埋め込みを使って実際の文書コーパスを検索する2段階プロセスを取ります。背景にある洞察は、「短く曖昧な質問」と「長く具体的な回答文書」では文体・語彙・情報密度が異なるため、両者の埋め込みベクトルが意味は近くても embedding 空間では離れていることが多い、というミスマッチ問題です。LLM にいったん「ありそうな答え」をシミュレートさせれば、生成文書と正解文書は文体・語彙が近くなり、コサイン類似度ベースの検索精度が大幅に向上します。BEIR ベンチマークなどで教師なしのデンスリトリーバル(Contriever 等)の検索性能を10-20%向上させ、ファインチューニング済みのデンスリトリーバルに匹敵する結果を出しました。実装は単純で、LangChain・LlamaIndex・Haystack などの主要 RAG フレームワークに組み込み済みで、HypotheticalDocumentEmbedder のような数行で利用できます。デメリットは LLM 呼び出しコストとレイテンシ追加で、リランカーや GraphRAG・BM25 ハイブリッド検索と組み合わせるのが実用上の標準パターンです。
実装例 / 使い方
- 01BEIR ベンチマークで教師なしモデルの検索性能を10-20%向上させた事例があります
- 02LangChain・LlamaIndex の HyDE モジュールで簡単に実装できます
- 03リランカーや GraphRAG と組み合わせて精度をさらに高められます
関連する用語
RAG
Retrieval-Augmented GenerationRAG (Retrieval-Augmented Generation) とは、LLM の回答生成時に外部知識ベース(社内ドキュメント、商品DB、マニュアル等)...
Retrieval
Retrieval (リトリーバル) は、RAG パイプラインの検索フェーズで、クエリに最も関連する文書を Vector DB / 全文検索から取得する処理です...
GraphRAG(知識グラフRAG)
GraphRAGGraphRAG は、文書からエンティティ・関係を抽出して知識グラフを構築し、グラフ構造をたどって回答するRAGの拡張手法です。「全体の主題」「複数文書をまたぐ...
Re-ranker(リランカー)
Re-rankerRe-ranker は、初段の検索で取得した上位候補(数十-数百件)を、より高精度なクロスエンコーダや LLM で再採点する仕組みです。RAGの回答品質を大きく...
セマンティック検索
セマンティック検索 (Semantic Search) は、キーワードの一致だけでなく、検索クエリの意味・文脈・意図を理解して関連性の高い結果を返す検索技術のこ...
HyDE(仮想文書埋め込み)を、実際に活用する
用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。
営業時間 平日10-18時 / 通常24時間以内に返信
