メインコンテンツへスキップ
EXBANK
用語集一覧へ
— Glossary

RAGRetrieval-Augmented Generation

読み: ラグ
執筆:堀内 宏之助最終確認:2026-05-10
TL;DR — 短い定義

RAG (Retrieval-Augmented Generation) とは、LLM の回答生成時に外部知識ベース(社内ドキュメント、商品DB、マニュアル等)から関連情報を検索 (Retrieval) して文脈に注入し、回答精度を高める技術です。ChatGPT のカスタムGPT、社内ナレッジ検索ボット等で広く使われます。

参照: Wikipedia

詳細解説

LLM 単体は学習時点の知識しか持たないため、最新情報や社内情報には答えられません。RAG はこの問題を解決するため、(1) ユーザー質問を Embedding ベクトルに変換、(2) ベクトルDB から類似度の高い社内ドキュメントを検索、(3) 検索結果を LLM のプロンプトに注入、(4) LLM が外部知識を踏まえた回答を生成、というパイプラインを取ります。実装には LangChain・LlamaIndex・Haystack 等のフレームワーク、ベクトルDB には Pinecone・Weaviate・Qdrant・Supabase pgvector 等が使われます。マーケティング用途では (1) 社内事例集を RAG 化して営業提案を高速生成、(2) 商品マニュアルを RAG 化してカスタマーサポート自動化、等で活用されます。

EXBK の見解 — 独自実装ノウハウ

**EXBK 実装事例: 中小企業向け「営業提案 RAG」 (2026年Q1)** - 構成: Cloudflare Workers AI + Vectorize + R2 でフルマネージド構築 - 商談履歴 850件 + 提案書テンプレ 120件 + 業種別事例 200件をベクトル化 - 月額コスト: $18 (Vectorize 50M クエリ + Workers AI 推論) - 営業提案作成時間: 平均 3.2時間 → 28分 (-86%)

**失敗パターン (EXBK が観測した実例)**: 1. **チャンクサイズ過大** (2000+ tokens): Embedding 精度低下、無関係チャンクが Top-K に混入。**500-800 tokens に分割が無難**。 2. **Re-ranker 未実装**: Cohere Rerank / Cross-encoder を入れないと精度頭打ち。**+15-25% 精度改善が一般的**。 3. **メタデータフィルタ不足**: 「最新の」「日本国内の」等の文脈情報を Embedding 任せにすると低精度。frontmatter で明示フィルタすると劇的改善。

**2026 年の最新トレンド**: Naive RAG → Advanced RAG → Modular RAG → **Agentic RAG** へ移行中。Anthropic の Claude Computer Use や OpenAI の o3 系の登場で「LLM 自身が検索戦略を動的に決める」方式が主流化しつつあります。

IMPLEMENT

RAGを、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

営業時間 平日10-18時 / 通常24時間以内に返信