狂烧 Token 却赚不到钱?这家清华系 AI Infra 独角兽已破解算力成本难题

中国每日大模型 Token 调用量在两年内暴增 1400 倍,但企业发现赚钱比烧 Token 更难。由清华高性能计算团队创立的 AI Infra 公司清程极智,正通过自研推理引擎和智能路由系统,试图将“算力成本”从黑盒变成可控资源,从而让 AI 应用真正能跑出利润。

狂烧 Token 却赚不到钱?这家清华系 AI Infra 独角兽已破解算力成本难题

一句话看懂:中国每日大模型 Token 调用量在两年内暴增 1400 倍,但企业发现赚钱比烧 Token 更难。由清华高性能计算团队创立的 AI Infra 公司清程极智,正通过自研推理引擎和智能路由系统,试图将“算力成本”从黑盒变成可控资源,从而让 AI 应用真正能跑出利润。

事件核心:发生了什么

在清程极智近日的媒体沟通会上,团队披露了一组关键数据:2024 年初,中国每日 Token 调用量约 0.1 万亿,到 2026 年 3 月已飙升至约 140 万亿,增幅 1400 倍,远超全球 300 倍的平均增速。然而,激增的需求并未直接转化为利润——当 Agent、客服、编程助手等应用的一次请求动辄触发几十次模型调用时,Token 从技术指标变成了真正的“生产资源”,而现实是许多服务商在缓存优化、推理效率上能力参差不齐,导致综合成本高企。

清程极智成立于 2023 年底,核心团队来自清华大学计算机系高性能计算研究所。其产品线包括:面向训练与应用的“八卦炉”、自研推理引擎“赤兔”,以及评测与智能路由服务“AI Ping”。赤兔引擎的一则案例尤为引人关注:在部署 DeepSeek-V3 满血版时,传统方案需要 4 台 8 卡服务器,赤兔通过软件层对计算格式和显存的重构,将需求压缩到 1 台服务器上。公司成立以来已完成天使轮、Pre-A 及 Pre-A+ 轮融资,投资方包括中科创星、中金资本、联想创投等。

为什么重要

这一事件折射出中国 AI 产业重心的关键迁移:从“谁拥有更强模型”转向“谁能更高效、更低成本地运行模型”。此前资本和媒体更关注基础大模型的能力迭代,但当开源模型快速普及后,系统软件和推理基础设施成为新的竞争壁垒。清程极智选择的 100% 自研路线,而非基于 vLLM 等开源框架“打补丁”,意在解决国产算力的深层问题——许多国产芯片不原生支持 FP4/FP8 等低位宽格式,若强行适配不仅浪费性能,还可能牺牲模型输出质量。如果系统软件层不能适配硬件结构,国产算力将长期停留在“可用但不好用”的阶段。

此外,清程极智揭露的“Token 市场黑盒”现象尤为关键:不同平台调用同一模型(如 DeepSeek)时,服务商可能私下使用更低精度量化(如从 FP8 降为 INT4)以降低成本,导致用户最终获得的能力完全不同。这揭示出,模型名称只是表象,推理层的能力差异正在成为决定企业 AI 真实使用成本和体验的隐秘变量。

对用户/开发者/创作者的影响

对企业和开发者: 你在采购 Token 服务时,买到的远不止一个模型名称。同样一个 API 接口,不同平台在量化精度、缓存命中率、并发调度上的差异,可能导致综合成本相差数倍,且响应延迟波动极大。建议企业将推理服务商的工程能力(如是否自研引擎、是否公开缓存命中率)纳入采购评估标准,而不只看单价。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对 AI 应用创业者: 如果产品涉及高频 Token 调用(如客服、代码助手、Agent),推理成本将迅速成为核心利润吞噬者。清程极智的“AI Ping”智能路由服务,试图让开发者像调度云资源一样动态选择模型和服务商,一旦成熟,可显著降低试错和切换成本。

对普通创作者/内容生产者: 当前 AI 写作、数据分析等工具背后的延迟和费用问题,本质上源于推理层优化不足。当系统软件进步后,用户的等待时间有望从“数十秒”缩短到“秒级”,AI 工具也能更稳定地融入日常生产流程,而非边用边等。

值得关注的后续

1. 赤兔引擎的规模化落地验证: 单机部署 DeepSeek-V3 的案例是否能在更多国产芯片(如寒武纪、海光)上复现,以及该方案在生产环境中的长期稳定性表现,将决定清程极智能否打开更大市场。

2. AI Ping 能否成为行业标准: 清程极智计划将不同服务商的 Token 质量评测与路由能力产品化。如果它能让开发者一键切换最低成本服务商,可能倒逼整个 Token 服务市场从“黑盒”走向透明化。

3. 竞品与生态反应: 目前多数推理引擎仍基于开源框架适配国产硬件,清程极智的“自研路线”若成本优势明显,可能引发其他 Infra 公司跟进重写底层,或促使现有框架进行更深度的国产化重构。

来源:InfoQ CN

celebrityanime
celebrityanime
文章: 9919

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注