刚刚,豆包2.1发布!Agent自己跑18个小时搞定芯片设计代码

字节跳动正式发布 Seed 2.1 系列模型(豆包 2.1),其中一个关键演示是 Agent 连续运行近 18 小时、历经 9 轮迭代,自主完成了芯片设计中的 RTL 代码生成,同时该模型在多项基准测试中已与 Claude Opus 4.7 和 GPT-5.5 实现性能比肩,但价格仅为竞品的四分之一。

刚刚,豆包2.1发布!Agent自己跑18个小时搞定芯片设计代码

一句话看懂:字节跳动正式发布 Seed 2.1 系列模型(豆包 2.1),其中一个关键演示是 Agent 连续运行近 18 小时、历经 9 轮迭代,自主完成了芯片设计中的 RTL 代码生成,同时该模型在多项基准测试中已与 Claude Opus 4.7 和 GPT-5.5 实现性能比肩,但价格仅为竞品的四分之一。

事件核心:发生了什么

6月23日,字节跳动发布 Seed 2.1 系列,包含 Doubao-Seed-2.1-Pro 和 Doubao-Seed-2.1-Turbo 两个模型,API 服务已全量上线火山方舟。火山引擎现场展示了一个硬核案例:Seed 2.1 Pro 在无人干预的情况下,围绕一个 16×16 PE 的 Tiny NPU Tile,连续运行近 18 小时,经历 9 轮迭代,完成了 6 个核心模块、1303 行 RTL 代码,而这一工作原本需 3-5 名人类工程师数周完成。

在评测方面,以贴近真实开发环境的 Terminal Bench 2.1 为参考,Seed 2.1 Pro 基本与 Claude Opus 4.7 持平;在科学计算评测 SciCode 上超过 Opus 4.7 和 GPT-5.5;在工具调用评测 MCP-Atlas 上同样领先。此外,在覆盖 13 个行业的 ALE 基准测试中,Seed 2.1 Pro 也处于第一梯队。价格方面,Pro 模型每百万 Token 输入 6 元、输出 30 元,缓存命中仅需 1.2 元,约为国外头部模型的四分之一。

为什么重要

这次的突破在于“自主长链任务执行”能力:18 小时持续运行、9 轮迭代、容错与自我修正,这意味着 Agent 不再只负责简单的代码补全或对话生成,而是开始能承担“从需求到交付”的长时间、高复杂度工程任务——比如芯片设计这种过去完全依赖资深工程师的领域。如果这一能力在更多产业场景中得到验证,将显著改变企业级 AI 应用的落地方式和价值判断。

同时,Seed 2.1 Pro 以更低的价格做到了接近乃至超越一线闭源模型的表现,这进一步压缩了国内大模型市场的价格空间,并对使用成本敏感的开发者群体构成强烈吸引力。

对用户/开发者/创作者的影响

对于开发者,Seed 2.1 Pro 可直接通过火山方舟 API 接入,实测在复杂 WebGL 编程、PPT 自动生成、结构化数据分析等任务中表现了较强的单文件交付能力。利用其办公任务模式,用户还可以通过拖拽文件的方式完成截图转 PRD、演示文稿直接含备注等工作流。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对于企业技术决策者,模型的长任务自主执行能力以及极低的缓存命中价格(1.2 元/百万 Token),意味着 AI 有机会深入研发、设计、数据分析等隐性成本更高的业务环节,而不仅仅是作为辅助工具存在。

对于创作者和职场用户,豆包 2.1 在办公任务模式下做到了“一次 Prompt 生成完整可用的 PPT”,且设计语言没有明显 AI 感,这大幅降低了内容制作的门槛。

值得关注的后续

第一,长任务自主执行的稳定性与纠错能力是否能在更复杂(如 100+ 模块的芯片设计)的真实生产环境中复现?目前公开信息显示仅在一个具体案例上验证。第二,字节跳动是否会开放 Seed 2.1 系列的开源版本或更多生态接口,以吸引更多第三方开发者基于其构建行业 Agent。第三,豆包日均 Token 使用量已突破 180 万亿,这一数据背后字节跳动的算力调度策略及投入成本结构是否会随新模型量级扩大而变化,值得持续观察。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 9615

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注