LLM 中的代币是什么？

一句话看懂：一篇来自 Hacker News 热门的深度技术文章，由开发者 bearisland.dev 撰写，明确指出 LLM（如 GPT-4、Llama 3）处理的“代币”并非单词或字符，而是模型独有的子词碎片，且不同模型的代币词汇表各不相同，这直接影响了模型对文本的感知、上下文长度和计费方式。

事件核心：发生了什么

文章以“strawberry 中有几个 r”这个常见测试开篇，指出 GPT-4 会错误回答“两个”，原因不是模型不会数数，而是模型根本“看不见”字母——它只处理代币 ID。代币是模型训练时通过 Byte Pair Encoding (BPE) 算法从大量语料中统计出的最小输入单元。每个模型（GPT-4、Claude、Llama 3）都有自己的固定词汇表，同样是“I love strawberry milkshakes!”这句话，GPT-4 会切分为 9 个代币（包括“·str”、“aw”、“berry”等），而 Llama 3 仅用 7 个代币（包含“·straw”、“berry”），因为两个模型的词汇表不同。文章提供了一个可交互的 GPT-4 代币化在线工具，让用户直接体验文本是如何被切割的。

为什么重要

这一认知对 AI 从业者和普通用户都至关重要：
1. 计费与上下文窗口的真实含义：API 按代币计费，开发者若不了解代币规则，极易低估成本或高估模型的上下文能力。例如，同一段中文或代码在不同模型上的代币消耗可能相差 30% 以上。
2. 模型能力的微观基础：代币化决定了模型“看到”什么。像“strawberry”被分割成“str”+“aw”+“berry”，导致模型难以识别完整的“strawberry”概念，这对拼写、拆字、特殊符号处理（如 URL、代码变量名）有直接影响。
3. 跨模型迁移的陷阱：由于词汇表不同，一个模型上训练好的 prompt 模板或 token 级预处理逻辑，直接迁移到另一个模型上可能性能骤降，需要重新设计和测试。

对用户/开发者/创作者的影响

对 API 开发者和企业用户：在选择模型时，不能只看价格标签和上下文长度，必须实测同一段输入在两个模型上的实际代币数。例如，对包含大量英文复合词或罕见字符的文档，GPT-4 可能比 Llama 3 多消耗 20-30% 的代币。
对 Prompt 工程师和创作者：理解代币边界能优化 prompt 设计。例如，在 GPT-4 中，让模型数单词字母时，最好要求它先逐字母列出再得出结论，因为模型不会“读”字母，它只能感知代币序列。
对普通用户：当你遇到的模型“犯低级错误”（如认错单词、无法正确识别 URL 中的路径）时，可意识到可能是代币化切割导致的问题，而非模型“不聪明”。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 开源模型词汇表的标准化竞争：Llama 3、Qwen 等开源模型发布时，其词汇表设计（尤其是对多语言、代码的支持）将成为评测重点，能否接近或超越闭源模型（如 GPT-4）的代币效率将成为关键卖点。
2. 代币化算法的演进：BPE 虽为主流，但 Google 的 SentencePiece、Mistral 等模型采用的改进版本值得关注，未来可能出现针对特定领域（如生物医药、法律）定制词汇表的模型。
3. 开发工具生态的适应：面向大模型的调试工具（如 tokenizer playground）和 prompt 管理平台，预计会加速推出“代币可视化”和“跨模型代币成本预估”功能，帮助开发者更精准地控制成本和效果。

来源：Hacker News (黑客新闻)

LLM 中的代币是什么？