GPT TOKENIZER

>_ 实时可视化 LLM 如何将文本分割成 Token

输入文本

0 字符
示例:

Token 可视化

0 tokens
Token 结果将在此显示...
0
TOKENS
0
CHARS
0
TOKEN/CHAR
0
BYTES

>_ 什么是 Tokenization?

大语言模型不会直接「阅读」文字——它们看到的是 Token。Tokenization 将文本切分成小块,每个 Token 可能是:

  • • 一个完整的常见词(如 "the""hello"
  • • 一个词的一部分(如 "un" + "believ" + "able"
  • • 单个字符或标点符号
  • • 中文通常 1-2 个汉字 = 1 个 Token

不同模型使用不同的 Tokenizer(编码方式),所以同一段文本在不同模型中的 Token 数量可能不同。o200k_base 是 GPT-4o 及更新模型的编码,对中文和多语言更友好。