メインコンテンツへスキップ
EXBANK
用語集一覧へ
— Glossary

Tokenizer

読み: トークナイザー
短い定義

Tokenizer (トークナイザー) は、LLM への入力テキストを 'トークン' という最小単位に分割するモジュールです。日本語は 1 文字 ≈ 1〜3 トークン、英語は 1 単語 ≈ 1.3 トークンが目安です。

詳細解説

Tokenizer は BPE (Byte-Pair Encoding) や SentencePiece などのアルゴリズムで実装され、LLM が処理する最小単位を生成します。OpenAI tiktoken / Anthropic claude-tokens 等のライブラリでローカル計算可能。日本語は単語境界が曖昧なため英語より 2〜3 倍のトークン数になりがちで、API コストや context window の消費に直結します。OpenAI o200k / cl100k などモデルごとに異なる tokenizer を使います。

実装例 / 使い方

  • 01「東京タワー」≒ 5 トークン (cl100k_base)
  • 02OpenAI tiktoken で事前トークン数計算
  • 03API コスト計算の基礎単位
IMPLEMENT

Tokenizerを、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

営業時間 平日10-18時 / 通常24時間以内に返信