GPT TOKENIZER

>_ 实时可视化 LLM 如何将文本分割成 Token

Model

显示 Token ID

▸ 输入文本

0 字符

示例：

0 tokens

Token 结果将在此显示...

TOKENS

CHARS

TOKEN/CHAR

BYTES

大语言模型不会直接「阅读」文字——它们看到的是 Token。Tokenization 将文本切分成小块，每个 Token 可能是：

不同模型使用不同的 Tokenizer（编码方式），所以同一段文本在不同模型中的 Token 数量可能不同。o200k_base 是 GPT-4o 及更新模型的编码，对中文和多语言更友好。