Tokenizer とは何ですか?

無料診断

用語集一覧へ

— Glossary

Tokenizer

読み: トークナイザー

短い定義

Tokenizer (トークナイザー) は、LLM への入力テキストを 'トークン' という最小単位に分割するモジュールです。日本語は 1 文字 ≈ 1〜3 トークン、英語は 1 単語 ≈ 1.3 トークンが目安です。

詳細解説

Tokenizer は BPE (Byte-Pair Encoding) や SentencePiece などのアルゴリズムで実装され、LLM が処理する最小単位を生成します。OpenAI tiktoken / Anthropic claude-tokens 等のライブラリでローカル計算可能。日本語は単語境界が曖昧なため英語より 2〜3 倍のトークン数になりがちで、API コストや context window の消費に直結します。OpenAI o200k / cl100k などモデルごとに異なる tokenizer を使います。

実装例 / 使い方

01「東京タワー」≒ 5 トークン (cl100k_base)
02OpenAI tiktoken で事前トークン数計算
03API コスト計算の基礎単位

Tokenizerを、実際に活用する

用語の意味は分かった。次は実装。EXBANK の無料診断で、貴社で具体的にどう活用できるかをご提案します。

細マッチョ企業診断 (3分・無料)個別に相談する

営業時間平日10-18時 / 通常24時間以内に返信

Tokenizer

詳細解説

実装例 / 使い方

関連する用語

Context window

OpenAI

Anthropic

Tokenizerを、実際に活用する