把 Token 价格打下来，中国芯片公司换了种活法

一句话看懂：从商汤科技孵化的曦望科技放弃了训练芯片赛道，押注一款专为 AI 推理设计的 GPU，通过砍掉训练模块、使用更大显存和更低成本的 LPDDR 内存，试图降低 Token 的生产成本。这标志着国产芯片从“替代英伟达”转向“寻找新赛道”。

事件核心：发生了什么

曦望科技推出“启望 S3”推理专用 GPU，其最直接的变化是：不兼容训练场景，把所有资源集中在推理加速上。芯片采用 LPDDR 内存方案，最高提供 600GB 国产最大显存（而非训练芯片常用的 HBM），并兼容多种内存规格以覆盖从边缘设备到云服务器的部署。此外，它通过软硬件协同优化（如 KV Cache 分层存储），将综合算力利用率稳定在 95%，并宣称兼容超过 99% 的 CUDA 生态。该公司的核心理念是：交易逻辑从卖算力转为卖算力结果，即按单位 Token 产出收费，而非按芯片算力峰值报价。

为什么重要

当前 AI 算力市场正经历结构性转变：2026 年推理将消耗全球三分之二 AI 算力，而市面上大多数 GPU 仍是“训推一体”或以训练优先。曦望的选择揭示了两条关键趋势：其一，推理芯片的瓶颈不在算力，而在显存容量、读取带宽和通信延迟，因此 HBM 并非唯一方案，消费级的 LPDDR 凭借高性价比切入；其二，国产芯片的叙事已从“国产替代”转为“换道并跑”——中国大模型（如 DeepSeek）已拥有全球定价权，国产芯片与国产模型在生态适配度上天然更高，这为国产推理芯片提供了不同于英伟达训练垄断的市场空间。

对用户/开发者/创作者的影响

对 AI 应用开发者或企业采购决策者而言，这意味着一个以前被忽视的选择：如果主要需求是部署大模型推理（如智能客服、内容生成、AI Agent），不再需要为高昂的训练芯片买单。曦望的定位是“Token 工厂”——客户购买的不是芯片，而是更低的推理成本。例如，红果短剧平台上已出现使用 AI 工具批量生成短剧的小团队，其 Token 消耗量激增，这种模式依赖推理端的成本下降才能跑通。对开发者来说，只要芯片兼容性足够（90% 以上 CUDA 兼容），迁移成本较低，且能得到软硬件一体的调度优化。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 产品落地验证：启望 S3 是否已进入量产或在主流客户（如智算中心、互联网 AI 公司）中得到部署，当前公开信息未明确披露时间表。2. 价格与生态覆盖：LLPDDR 方案能多大程度压低 Token 单价，以及能否持续适配快速变化的 AI 模型架构（如 Agent 工作流演变），将决定其市场广度。3. 竞争格局变化：训推一体 GPU 公司是否会专门为推理推出优化版本，或 ASIC 芯片厂商是否会提升通用性，将影响该赛道的拥挤程度。目前公开信息显示，中国市场已出现分化：通用低价值 Token 面临价格战，高价值 Token 场景（如长上下文、低延迟）仍供不应求。

来源：Readhub · AI

把 Token 价格打下来，中国芯片公司换了种活法

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

为什么亚马逊放弃了 OpenAI 电影、数据中心员工的反击以及 Meta 泄露员工数据

联想推出了好奇的迷你电脑，它配备了专有的“商店”，您可以在其中购买多达 8000 种不同的人工智能技能 – 这是计算的未来吗？

人工智能中的政治偏见：人工智能模型的现状

发表回复取消回复