LLM 中的代币是什么?

LLM 中的代币是什么?

LLM 中的代币是什么?

一句话看懂:一篇来自 Hacker News 热门的深度技术文章,由开发者 bearisland.dev 撰写,明确指出 LLM(如 GPT-4、Llama 3)处理的“代币”并非单词或字符,而是模型独有的子词碎片,且不同模型的代币词汇表各不相同,这直接影响了模型对文本的感知、上下文长度和计费方式。

事件核心:发生了什么

文章以“strawberry 中有几个 r”这个常见测试开篇,指出 GPT-4 会错误回答“两个”,原因不是模型不会数数,而是模型根本“看不见”字母——它只处理代币 ID。代币是模型训练时通过 Byte Pair Encoding (BPE) 算法从大量语料中统计出的最小输入单元。每个模型(GPT-4、Claude、Llama 3)都有自己的固定词汇表,同样是“I love strawberry milkshakes!”这句话,GPT-4 会切分为 9 个代币(包括“·str”、“aw”、“berry”等),而 Llama 3 仅用 7 个代币(包含“·straw”、“berry”),因为两个模型的词汇表不同。文章提供了一个可交互的 GPT-4 代币化在线工具,让用户直接体验文本是如何被切割的。

为什么重要

这一认知对 AI 从业者和普通用户都至关重要:
1. 计费与上下文窗口的真实含义:API 按代币计费,开发者若不了解代币规则,极易低估成本或高估模型的上下文能力。例如,同一段中文或代码在不同模型上的代币消耗可能相差 30% 以上。
2. 模型能力的微观基础:代币化决定了模型“看到”什么。像“strawberry”被分割成“str”+“aw”+“berry”,导致模型难以识别完整的“strawberry”概念,这对拼写、拆字、特殊符号处理(如 URL、代码变量名)有直接影响。
3. 跨模型迁移的陷阱:由于词汇表不同,一个模型上训练好的 prompt 模板或 token 级预处理逻辑,直接迁移到另一个模型上可能性能骤降,需要重新设计和测试。

对用户/开发者/创作者的影响

对 API 开发者和企业用户:在选择模型时,不能只看价格标签和上下文长度,必须实测同一段输入在两个模型上的实际代币数。例如,对包含大量英文复合词或罕见字符的文档,GPT-4 可能比 Llama 3 多消耗 20-30% 的代币。
对 Prompt 工程师和创作者:理解代币边界能优化 prompt 设计。例如,在 GPT-4 中,让模型数单词字母时,最好要求它先逐字母列出再得出结论,因为模型不会“读”字母,它只能感知代币序列。
对普通用户:当你遇到的模型“犯低级错误”(如认错单词、无法正确识别 URL 中的路径)时,可意识到可能是代币化切割导致的问题,而非模型“不聪明”。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 开源模型词汇表的标准化竞争:Llama 3、Qwen 等开源模型发布时,其词汇表设计(尤其是对多语言、代码的支持)将成为评测重点,能否接近或超越闭源模型(如 GPT-4)的代币效率将成为关键卖点。
2. 代币化算法的演进:BPE 虽为主流,但 Google 的 SentencePiece、Mistral 等模型采用的改进版本值得关注,未来可能出现针对特定领域(如生物医药、法律)定制词汇表的模型。
3. 开发工具生态的适应:面向大模型的调试工具(如 tokenizer playground)和 prompt 管理平台,预计会加速推出“代币可视化”和“跨模型代币成本预估”功能,帮助开发者更精准地控制成本和效果。

来源:Hacker News (黑客新闻)

celebrityanime
celebrityanime
文章: 6267

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注