什么是 Token(词元)?

AI 大模型 Token 计算与定价全解析 —— 从原理到实践,一文搞懂 Token 的一切

目录

一、Token 到底是什么?

如果你使用过 ChatGPT、Claude、Gemini 或任何 AI 大模型,你一定见过「Token」这个词。Token(词元)是大语言模型(LLM)理解和生成文本的最小单位

简单来说,Token 就是模型处理文本时的「积木块」。模型不直接读取文字,而是先把文本切分成一个个 Token,然后对这些 Token 进行理解和生成。

一个直观的例子:

英文句子 "Hello world" 会被切分为 2 个 Token:Hello world

中文句子 "你好世界" 可能被切分为 2-4 个 Token,取决于模型的分词器(Tokenizer)

Token 既不是单词,也不是字符,而是介于两者之间的一种「子词」(subword)单元。一个 Token 可能是一个完整的单词(如 "hello"),也可能是一个词的一部分(如 "un-" 和 "-happy"),甚至可能是一个标点符号。

为什么需要 Token?

大模型使用 Token 而不是直接使用文字,有几个重要原因:

二、Token 是怎么计算的?

不同模型使用不同的分词算法(Tokenizer),目前主流的有三种:

1. BPE(Byte Pair Encoding)

BPE 是最常用的分词算法,被 GPT 系列、Claude、LLaMA 等模型采用。它的核心思想是:

  1. 从单个字符(字节)开始
  2. 统计相邻字符对的出现频率
  3. 将出现最频繁的字符对合并为新 Token
  4. 重复这个过程,直到达到预设的词汇表大小
// BPE 分词过程示意
原始文本: "tokenization"
第1步: ['t','o','k','e','n','i','z','a','t','i','o','n']
第2步: ['to','k','en','i','z','a','t','i','on'] // 合并高频对
第3步: ['tok','en','iz','ation'] // 继续合并
最终: ['token','ization'] // 2个Token

2. WordPiece

WordPiece 是 Google 的 BERT 模型使用的分词方法,原理与 BPE 类似,但合并策略略有不同。它选择合并后能最大化训练数据似然的字符对。

3. SentencePiece

SentencePiece 是 Google 开发的语言无关分词工具,特别适合处理中日韩等不以空格分词的语言。它直接在原始文本(包括空格)上进行分词,不依赖预分词步骤。

粗略估算规则

英文:1 个 Token 大约等于 4 个字符,或 0.75 个单词。100 个 Token 约 75 个英文单词。

中文:1 个汉字通常需要 1-2 个 Token(取决于模型)。100 个 Token 约 50-100 个汉字。

代码:代码的 Token 消耗通常高于自然语言,因为变量名、符号等都会占用 Token。

三、中文的 Token 计算

中文 Token 计算与英文有很大差异。由于中文没有天然的空格分隔符,且汉字数量远超英文字母,不同模型对中文的 Token 化效率差异显著。

各模型中文 Token 效率

以「人工智能正在改变世界」这句话为例:

模型Token 数分词结果
GPT-4 / GPT-4o5-7较高效,常见词作为整体
Claude 3.5/45-8对中文优化较好
Gemini5-7使用 SentencePiece,中文友好
通义千问4-6专为中文优化,效率最高
DeepSeek4-6中文分词效率优秀
GLM / 智谱4-6中文原生模型,效率高

国产大模型在中文 Token 化上普遍比国际模型更高效,这意味着在同样的 Token 限制下,国产模型能处理更多的中文文本,性价比更高。

四、各大模型 Token 价格对比

Token 是大模型按量计费的基本单位。了解各模型的 Token 价格,对控制成本至关重要。以下是 2026 年主流模型的定价(均按百万 Token 计):

国际旗舰模型

模型输入价格输出价格上下文窗口
GPT-4o$2.50$10.00128K
GPT-4.1$2.00$8.001M
Claude Opus 4$15.00$75.00200K
Claude Sonnet 4$3.00$15.00200K
Gemini 2.5 Pro$1.25$10.001M

国产主力模型

模型输入价格(元/百万Token)输出价格(元/百万Token)上下文窗口
DeepSeek-V31.002.00128K
通义千问 Max2.006.00128K
Kimi k2.52.008.00128K
GLM-4-Plus5.005.00128K
豆包 Pro0.802.00128K
MiniMax abab71.001.00245K

想看最新实时价格?词元社区提供模型价格实时对比工具,支持按需求筛选最具性价比的模型。

价格解读

几个值得关注的趋势:

五、如何优化 Token 用量

无论是个人还是企业用户,合理控制 Token 用量都能显著降低成本。以下是经过验证的优化策略:

1. 精简提示词(Prompt)

一个好的提示词应该简洁而精确。避免冗余的说明和重复的上下文。

// 低效(约 50 Token)
"请你帮我把下面的这段英文翻译成中文,翻译的时候请注意要通顺自然,
不要太生硬,尽量符合中文的表达习惯..."

// 高效(约 15 Token)
"翻译成自然流畅的中文:"

2. 使用系统提示词缓存

Claude、GPT 等模型支持 Prompt Caching,对重复的系统提示词只计费一次,后续调用可节省 80-90% 的输入 Token 费用。

3. 选择合适的模型

不是所有任务都需要最强大的模型。简单的文本处理可以用轻量模型(如 GPT-4o-mini、Claude Haiku),复杂推理再用旗舰模型。

4. 控制输出长度

通过 max_tokens 参数限制输出长度,避免模型生成过多不必要的内容。在提示词中明确说明期望的输出格式和长度。

5. 压缩上下文

对于多轮对话,定期对历史消息进行摘要,用精简的摘要替代完整的历史记录,可以大幅减少 Token 消耗。

六、常见问题

Q: 1 个 Token 等于多少个字?

英文约 4 个字符(约 0.75 个单词),中文约 0.5-1 个汉字(取决于模型的分词器)。这是粗略估算,实际会有差异。

Q: Token 有上限吗?

是的,每个模型都有「上下文窗口」(Context Window)限制。例如 GPT-4o 的上下文窗口是 128K Token,Claude 是 200K Token,Gemini 2.5 Pro 达到了 1M Token。输入和输出的 Token 总和不能超过这个限制。

Q: 为什么相同文本在不同模型里 Token 数不同?

因为每个模型使用不同的分词器(Tokenizer)和词汇表。就像不同语言对同一件事有不同的表达方式一样,不同的分词器会把文本切分成不同的 Token 序列。

Q: 如何查看 API 调用消耗了多少 Token?

大多数 API 在返回结果中会包含 usage 字段,标明了 prompt_tokens(输入 Token)和 completion_tokens(输出 Token)。你也可以使用词元首页的 Token 计算器来预估 Token 数量。

Q: 图片和音频也消耗 Token 吗?

是的!多模态模型(如 GPT-4o、Gemini、Claude)处理图片和音频时,会将它们转换为等效的 Token。一张中等分辨率的图片大约消耗 500-2000 Token。

开始计算你的 Token

使用词元社区提供的免费工具,精确计算文本 Token 数量,对比各模型价格。

打开 Token 计算器