用語集一覧へ
— Glossary
Tokenizer
読み: トークナイザー
短い定義
Tokenizer (トークナイザー) は、LLM への入力テキストを 'トークン' という最小単位に分割するモジュールです。日本語は 1 文字 ≈ 1〜3 トークン、英語は 1 単語 ≈ 1.3 トークンが目安です。
詳細解説
Tokenizer は BPE (Byte-Pair Encoding) や SentencePiece などのアルゴリズムで実装され、LLM が処理する最小単位を生成します。OpenAI tiktoken / Anthropic claude-tokens 等のライブラリでローカル計算可能。日本語は単語境界が曖昧なため英語より 2〜3 倍のトークン数になりがちで、API コストや context window の消費に直結します。OpenAI o200k / cl100k などモデルごとに異なる tokenizer を使います。
実装例 / 使い方
- 01「東京タワー」≒ 5 トークン (cl100k_base)
- 02OpenAI tiktoken で事前トークン数計算
- 03API コスト計算の基礎単位
— IMPLEMENT
Tokenizerを、実際に活用する
用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。
営業時間 平日10-18時 / 通常24時間以内に返信
