CAG(Cache-Augmented Generation)CAG
CAG は、参照知識を事前にコンテキストに読み込ませた KV キャッシュを保存・再利用することで、RAG の代わりに長コンテキスト LLM で知識参照を行う手法です。検索ステップが不要で低レイテンシです。
詳細解説
CAG(Cache-Augmented Generation、キャッシュ拡張生成、キャッシュオーグメンテッドジェネレーション)は、Chan ら(NTU・Academia Sinica)が2024年12月に提唱した、長コンテキスト LLM の登場で実現可能になった RAG の代替パラダイムです。RAG が「質問のたびに外部ベクトル DB を検索→検索結果をプロンプトに挿入→LLM 推論」という3ステップを取るのに対し、CAG は「参照すべき知識ベース全体(数K〜数百K tokens)を一度プロンプトとして LLM に読み込ませて KV キャッシュを生成・保存→ユーザー質問のたびに保存した KV キャッシュをリロードして質問だけを追加で処理」という流れを取ります。これにより、(1) 検索ステップが消えて単純化、(2) リトリーバルの精度に依存しないため検索失敗による回答品質劣化が起きない、(3) プリフィル(Prefill)を1回だけ行うため運用コストが大幅削減、というメリットが得られます。Anthropic は2024年8月に Prompt Caching、Google Gemini は Context Caching として API レベルで実装し、Claude では入力コストが最大90%、レイテンシが最大85%削減されると公式に報告しています。適用が向くのは、(a) 知識ベースが固定的、(b) コンテキストウィンドウに収まる規模、(c) 同じ知識ベースに対して多数の質問が来る、というシナリオで、社内ドキュメント Q&A・カスタマーサポート・コードベース解説・教科書要約などが典型例です。RAG と CAG はトレードオフ関係にあり、状況に応じて使い分け・併用が現代の標準となっています。
実装例 / 使い方
- 01社内ドキュメント全体(数百K tokens)を1回プリフィルし KV キャッシュを保存します
- 02質問のたびに保存済みキャッシュを再利用して10-100倍高速に回答します
- 03Anthropic Prompt Caching・Gemini Context Caching が API として提供されます
関連する用語
RAG
Retrieval-Augmented GenerationRAG (Retrieval-Augmented Generation) とは、LLM の回答生成時に外部知識ベース(社内ドキュメント、商品DB、マニュアル等)...
KV Cache(KVキャッシュ)
KV CacheKV Cache は、自己回帰生成中に過去トークンの Key・Value を保存して再利用する仕組みです。1トークン生成あたりの計算量が O(N^2) から O...
Context window
Context window (コンテキストウィンドウ) は、LLM が一度に処理できる入力 + 出力の最大トークン数です。Claude 4 系は 200K〜1...
Retrieval
Retrieval (リトリーバル) は、RAG パイプラインの検索フェーズで、クエリに最も関連する文書を Vector DB / 全文検索から取得する処理です...
Transformer
Transformer (トランスフォーマー) は 2017 年 Google 論文で発表された深層学習アーキテクチャで、Self-Attention 機構を核...
CAG(Cache-Augmented Generation)を、実際に活用する
用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。
営業時間 平日10-18時 / 通常24時間以内に返信
