メインコンテンツへスキップ
EXBANK
用語集一覧へ
— Glossary

RLHFReinforcement Learning from Human Feedback

読み: アールエルエイチエフ
短い定義

RLHF (Reinforcement Learning from Human Feedback) は、人間の好みを報酬信号として LLM を強化学習で調整する手法です。ChatGPT / Claude が人間に好まれる応答を学んだ核心技術です。

詳細解説

RLHF は (1) 教師あり Fine-tuning で初期モデルを作る、(2) 人間が複数応答候補をランク付け、(3) ランクから報酬モデルを訓練、(4) PPO 等の強化学習で言語モデルを更新、の流れ。OpenAI が ChatGPT で大規模に適用し、Anthropic は派生形 (Constitutional AI / RLAIF) を採用しています。これにより「事実は正しいが攻撃的」「長文だが要点不明」といった問題を抑え、人間にとって心地よい応答にチューニングされています。

実装例 / 使い方

  • 01ChatGPT の応答品質の核心技術
  • 02Claude の Constitutional AI も派生
  • 03DPO (Direct Preference Optimization) は簡略化された後継
IMPLEMENT

RLHFを、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

営業時間 平日10-18時 / 通常24時間以内に返信