CAG(Cache-Augmented Generation) とは何ですか?

CAG は、参照知識を事前にコンテキストに読み込ませた KV キャッシュを保存・再利用することで、RAG の代わりに長コンテキスト LLM で知識参照を行う手法です。検索ステップが不要で低レイテンシです。

CAG(Cache-Augmented Generation) (CAG) とは — 意味・実装・関連用語 | AIマーケティング用語集

詳細解説

CAG(Cache-Augmented Generation、キャッシュ拡張生成、キャッシュオーグメンテッドジェネレーション)は、Chan ら(NTU・Academia Sinica)が2024年12月に提唱した、長コンテキスト LLM の登場で実現可能になった RAG の代替パラダイムです。RAG が「質問のたびに外部ベクトル DB を検索→検索結果をプロンプトに挿入→LLM 推論」という3ステップを取るのに対し、CAG は「参照すべき知識ベース全体(数K〜数百K tokens)を一度プロンプトとして LLM に読み込ませて KV キャッシュを生成・保存→ユーザー質問のたびに保存した KV キャッシュをリロードして質問だけを追加で処理」という流れを取ります。これにより、(1) 検索ステップが消えて単純化、(2) リトリーバルの精度に依存しないため検索失敗による回答品質劣化が起きない、(3) プリフィル(Prefill)を1回だけ行うため運用コストが大幅削減、というメリットが得られます。Anthropic は2024年8月に Prompt Caching、Google Gemini は Context Caching として API レベルで実装し、Claude では入力コストが最大90%、レイテンシが最大85%削減されると公式に報告しています。適用が向くのは、(a) 知識ベースが固定的、(b) コンテキストウィンドウに収まる規模、(c) 同じ知識ベースに対して多数の質問が来る、というシナリオで、社内ドキュメント Q&A・カスタマーサポート・コードベース解説・教科書要約などが典型例です。RAG と CAG はトレードオフ関係にあり、状況に応じて使い分け・併用が現代の標準となっています。

実装例 / 使い方

01社内ドキュメント全体(数百K tokens)を1回プリフィルし KV キャッシュを保存します
02質問のたびに保存済みキャッシュを再利用して10-100倍高速に回答します
03Anthropic Prompt Caching・Gemini Context Caching が API として提供されます

参考・出典

CAG(Cache-Augmented Generation)を、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

細マッチョ企業診断 (3分・無料)個別に相談する

営業時間平日10-18時 / 通常24時間以内に返信

CAG(Cache-Augmented Generation)CAG

詳細解説

実装例 / 使い方

参考・出典

関連する用語

RAG

KV Cache(KVキャッシュ)

Context window

Retrieval

Transformer

CAG(Cache-Augmented Generation)を、実際に活用する