当 Token 成为商品，AI 基础设施会怎么变化？

一句话看懂：九章云极在 6 月 17 日的发布会上提出 AI 工厂战略，核心是用“有效 Token”替代 GPU 卡数作为智能的计量单位，并发布训练工厂和 Token 工厂两套产品体系，试图把模型能力从资源消耗品变成“可计量、可调度、可保障”的商品。

事件核心：发生了什么

九章云极发布 Alaya NeW Cloud 3.0，核心变化是引入 DCU（算力单位）与专业 Token（智能产出单位）两套度量体系。训练工厂负责将通用模型精调为专业模型，Token 工厂则将模型能力封装为可调用的 API 服务。公司副总裁胡宗星指出，目前推理性能存在 10 倍以上的鸿沟：顶级 8 卡 GPU 服务器理论可产 1000 Token/s，但实际解码速度只有几十 Token/s，根源在于 Kernel 执行间隙、状态搬运和 CPU-GPU 同步。为此，产品层增加了 Inference OS 管理 KV 缓存状态复用、DingoFS Connector 实现 KVCache 跨节点共享，以及 Aladdin 前置算力入口让开发者通过 IDE 插件直接调用。

为什么重要

目前行业普遍按 GPU 卡数或 API 调用量收费，但九章云极认为这样无法回答企业“任务能不能完成”的真实成本。提出“有效 Token”概念后，AI 基础设施将从算力供给转向智能生产——算力投入用 DCU 衡量，产出用专业 Token 衡量。这意味着 AI 服务可能从“按模型租用”变成“按智能产出付费”，类似电力的装机容量和实际供电量。同时，九章云极将 Token 分为消费级、专业级、前沿级三级，聚焦企业级和专业级，这会推动推理优化从大模型通用优化转向行业专属封装和 KV Cache 复用。

对用户/开发者/创作者的影响

对企业采购方：未来购买 AI 服务时，合同指标可能不再是 GPU 数量和模型参数量，而是 SLA 保证的有效 Token 数量、响应时延和任务完成率。这会降低选型门槛。
对开发者：Aladdin 插件让算力调用隐藏在 IDE 和 CLI 中，缩短从环境配置到任务调用的链路。同时，Token 工厂意味着开发者可以通过 API 直接消费封装好的行业模型（平台已预制 50 余款主流模型和 100 多款精调版本），减少自行精调的成本。
对 AI 应用创业者：KV Cache 跨节点复用方案（DingoFS Connector）可能降低长上下文 Agent 应用的推理成本，因为重复的 prefill 计算会被缓存复用。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 这套度量体系是否被行业采纳：目前公开信息显示，九章云极同时发布了 DCU 和 Token 标准，但主流云厂商尚未跟进。如果后续有更多第三方独立评测机构或行业协会采用“有效 Token”作为比价指标，可能改变行业定价模式。
2. 训练工厂 + Token 工厂的结合效果：能否在金融、制造等真实场景中让“有效 Token 比例”提升超过 10 倍，将是检验该方案是否优于现有推理框架的关键。
3. 生态扩展：Alaya NeW Cloud 3.0 纳管了英伟达、AMD、昇腾等异构算力，但 50 多款预制模型的精调版本质量、以及行业模型的持续更新节奏，将决定开发者的实际迁移意愿。

来源：InfoQ CN

当 Token 成为商品，AI 基础设施会怎么变化？

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

[Claude] 帅哥们,已经安装 claude,直接 20usd 包月就可以用了吗?

一家人工智能视频初创公司表示，随着各品牌争相利用人工智能制作广告，其年度经常性收入（ARR）激增至5亿美元。

她的女儿们曾担任 YouTube 和 23andMe 的首席执行官。她对人工智能时代的父母有何建议？送你的孩子上大学。

发表回复取消回复