把 Token 价格打下来,中国芯片公司换了种活法

从商汤科技孵化的曦望科技放弃了训练芯片赛道,押注一款专为 AI 推理设计的 GPU,通过砍掉训练模块、使用更大显存和更低成本的 LPDDR 内存,试图降低 Token 的生产成本。这标志着国产芯片从“替代英伟达”转向“寻找新赛道”。

把 Token 价格打下来,中国芯片公司换了种活法

一句话看懂:从商汤科技孵化的曦望科技放弃了训练芯片赛道,押注一款专为 AI 推理设计的 GPU,通过砍掉训练模块、使用更大显存和更低成本的 LPDDR 内存,试图降低 Token 的生产成本。这标志着国产芯片从“替代英伟达”转向“寻找新赛道”。

事件核心:发生了什么

曦望科技推出“启望 S3”推理专用 GPU,其最直接的变化是:不兼容训练场景,把所有资源集中在推理加速上。芯片采用 LPDDR 内存方案,最高提供 600GB 国产最大显存(而非训练芯片常用的 HBM),并兼容多种内存规格以覆盖从边缘设备到云服务器的部署。此外,它通过软硬件协同优化(如 KV Cache 分层存储),将综合算力利用率稳定在 95%,并宣称兼容超过 99% 的 CUDA 生态。该公司的核心理念是:交易逻辑从卖算力转为卖算力结果,即按单位 Token 产出收费,而非按芯片算力峰值报价。

为什么重要

当前 AI 算力市场正经历结构性转变:2026 年推理将消耗全球三分之二 AI 算力,而市面上大多数 GPU 仍是“训推一体”或以训练优先。曦望的选择揭示了两条关键趋势:其一,推理芯片的瓶颈不在算力,而在显存容量、读取带宽和通信延迟,因此 HBM 并非唯一方案,消费级的 LPDDR 凭借高性价比切入;其二,国产芯片的叙事已从“国产替代”转为“换道并跑”——中国大模型(如 DeepSeek)已拥有全球定价权,国产芯片与国产模型在生态适配度上天然更高,这为国产推理芯片提供了不同于英伟达训练垄断的市场空间。

对用户/开发者/创作者的影响

对 AI 应用开发者或企业采购决策者而言,这意味着一个以前被忽视的选择:如果主要需求是部署大模型推理(如智能客服、内容生成、AI Agent),不再需要为高昂的训练芯片买单。曦望的定位是“Token 工厂”——客户购买的不是芯片,而是更低的推理成本。例如,红果短剧平台上已出现使用 AI 工具批量生成短剧的小团队,其 Token 消耗量激增,这种模式依赖推理端的成本下降才能跑通。对开发者来说,只要芯片兼容性足够(90% 以上 CUDA 兼容),迁移成本较低,且能得到软硬件一体的调度优化。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 产品落地验证:启望 S3 是否已进入量产或在主流客户(如智算中心、互联网 AI 公司)中得到部署,当前公开信息未明确披露时间表。2. 价格与生态覆盖:LLPDDR 方案能多大程度压低 Token 单价,以及能否持续适配快速变化的 AI 模型架构(如 Agent 工作流演变),将决定其市场广度。3. 竞争格局变化:训推一体 GPU 公司是否会专门为推理推出优化版本,或 ASIC 芯片厂商是否会提升通用性,将影响该赛道的拥挤程度。目前公开信息显示,中国市场已出现分化:通用低价值 Token 面临价格战,高价值 Token 场景(如长上下文、低延迟)仍供不应求。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 10060

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注