メインコンテンツへスキップ
EXBANK
Draft / 編集レビュー前この用語はAI補助で初稿生成中です。事実確認・編集監修が完了するまで検索エンジンには公開されません。誤りを見つけたらこちらから連絡してください。
用語集一覧へ
— Glossary

CAG(Cache-Augmented Generation)CAG

読み: キャッシュオーグメンテッドジェネレーション
TL;DR — 短い定義

CAG は、参照知識を事前にコンテキストに読み込ませた KV キャッシュを保存・再利用することで、RAG の代わりに長コンテキスト LLM で知識参照を行う手法です。検索ステップが不要で低レイテンシです。

詳細解説

CAG(Cache-Augmented Generation、キャッシュ拡張生成、キャッシュオーグメンテッドジェネレーション)は、Chan ら(NTU・Academia Sinica)が2024年12月に提唱した、長コンテキスト LLM の登場で実現可能になった RAG の代替パラダイムです。RAG が「質問のたびに外部ベクトル DB を検索→検索結果をプロンプトに挿入→LLM 推論」という3ステップを取るのに対し、CAG は「参照すべき知識ベース全体(数K〜数百K tokens)を一度プロンプトとして LLM に読み込ませて KV キャッシュを生成・保存→ユーザー質問のたびに保存した KV キャッシュをリロードして質問だけを追加で処理」という流れを取ります。これにより、(1) 検索ステップが消えて単純化、(2) リトリーバルの精度に依存しないため検索失敗による回答品質劣化が起きない、(3) プリフィル(Prefill)を1回だけ行うため運用コストが大幅削減、というメリットが得られます。Anthropic は2024年8月に Prompt Caching、Google Gemini は Context Caching として API レベルで実装し、Claude では入力コストが最大90%、レイテンシが最大85%削減されると公式に報告しています。適用が向くのは、(a) 知識ベースが固定的、(b) コンテキストウィンドウに収まる規模、(c) 同じ知識ベースに対して多数の質問が来る、というシナリオで、社内ドキュメント Q&A・カスタマーサポート・コードベース解説・教科書要約などが典型例です。RAG と CAG はトレードオフ関係にあり、状況に応じて使い分け・併用が現代の標準となっています。

実装例 / 使い方

  • 01社内ドキュメント全体(数百K tokens)を1回プリフィルし KV キャッシュを保存します
  • 02質問のたびに保存済みキャッシュを再利用して10-100倍高速に回答します
  • 03Anthropic Prompt Caching・Gemini Context Caching が API として提供されます
IMPLEMENT

CAG(Cache-Augmented Generation)を、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

営業時間 平日10-18時 / 通常24時間以内に返信