メインコンテンツへスキップ
EXBANK
Draft / 編集レビュー前この用語はAI補助で初稿生成中です。事実確認・編集監修が完了するまで検索エンジンには公開されません。誤りを見つけたらこちらから連絡してください。
用語集一覧へ
— Glossary

HyDE(仮想文書埋め込み)HyDE

読み: ハイディ
TL;DR — 短い定義

HyDE(Hypothetical Document Embeddings)は、ユーザー質問から LLM に「仮想の回答文書」を生成させその埋め込みで検索する手法です。短い質問と長い文書のミスマッチを解消し検索精度を高めます。

詳細解説

HyDE(Hypothetical Document Embeddings、仮想文書埋め込み、ハイディ)は、Gao ら(Carnegie Mellon University)が2022年12月に提案したゼロショット密検索手法で、ユーザーの短い質問をそのまま埋め込みで検索する代わりに、まず LLM に「この質問への仮想的な回答文書」を1つ生成させ、その仮想文書の埋め込みを使って実際の文書コーパスを検索する2段階プロセスを取ります。背景にある洞察は、「短く曖昧な質問」と「長く具体的な回答文書」では文体・語彙・情報密度が異なるため、両者の埋め込みベクトルが意味は近くても embedding 空間では離れていることが多い、というミスマッチ問題です。LLM にいったん「ありそうな答え」をシミュレートさせれば、生成文書と正解文書は文体・語彙が近くなり、コサイン類似度ベースの検索精度が大幅に向上します。BEIR ベンチマークなどで教師なしのデンスリトリーバル(Contriever 等)の検索性能を10-20%向上させ、ファインチューニング済みのデンスリトリーバルに匹敵する結果を出しました。実装は単純で、LangChain・LlamaIndex・Haystack などの主要 RAG フレームワークに組み込み済みで、HypotheticalDocumentEmbedder のような数行で利用できます。デメリットは LLM 呼び出しコストとレイテンシ追加で、リランカーや GraphRAG・BM25 ハイブリッド検索と組み合わせるのが実用上の標準パターンです。

実装例 / 使い方

  • 01BEIR ベンチマークで教師なしモデルの検索性能を10-20%向上させた事例があります
  • 02LangChain・LlamaIndex の HyDE モジュールで簡単に実装できます
  • 03リランカーや GraphRAG と組み合わせて精度をさらに高められます
IMPLEMENT

HyDE(仮想文書埋め込み)を、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

営業時間 平日10-18時 / 通常24時間以内に返信