
一句话看懂:知名VC分析师Tomer Tunguz 和 Coinbase CEO Brian Armstrong 先后指出,大多数AI智能体团队把模型选择放在第一位是错的;真正优先的是设计路由系统——通过一个小型代码层判断请求应由哪个层级的模型处理,从而让70-80%流量跑在成本趋近于零的本地模型上,大幅降低推理开销。
事件核心:发生了什么
Tomer Tunguz 在其博客中总结了一条反直觉的工程原则:构建AI智能体时,路由设计优先于模型选择。他观察到大多数团队先选模型再搭架构,这是本末倒置。正确的顺序是把模型选择放到最后一步定。路由是一段代码,负责识别用户请求的技能类型、判断复杂度与上下文大小,然后给每个请求分配最便宜的、能达到置信度阈值模型的执行层。Tunguz 引用 Coinbase 的实践:通过更好的默认设置、路由和缓存,在 Token 用量增长的同时把AI支出砍掉近一半。
该方法分为三个层次:技能分类器(将原始请求转为具体操作,如“起草回复”“总结仓库”)、路由器(根据分类标签和特征选择执行层)、模型选择器(在层级内选最便宜的模型)。分类器解决语言理解问题,路由器解决调度问题,二者如果混在一起会让模型选择隐藏在提示词里,无法对不同模型做A/B测试。Tunguz 团队已将其接入智能体运行时,添加了同步预测(拦截已知高风险任务)和夜间闭环反馈(通过批量异步推理更新路由权重)两套机制。
为什么重要
这一观点切中当前AI原生应用的核心浪费:绝大多数团队用昂贵的实时推理模型处理所有请求,而实际上大量任务可以排队或异步执行。Tunguz给出的关键数字是:本地计算几乎免费,异步批量推理比实时推理便宜两个数量级。一旦系统能够排队,多数工作根本不需要秒级返回——草拟回复、仓库摘要、夜间评估器运行均如此。这意味着传统上“先选模型、再调架构”的思维会导致成本线性膨胀,而路由优先的架构能让成本与用量脱钩。
Coinbase 的案例证明了这条路商业化可行:不靠摩擦和消费告警,而是靠系统结构解决问题。这对依赖API成本的AI应用开发者和企业采购方有直接启发——减少对顶级闭源模型的依赖,把资源留住给真正需要实时能力的任务。
对用户/开发者/创作者的影响
对开发者:构建AI智能体时应该改变默认工作流——不要第一步去决定用哪个大模型,而是先定义技能分类器与路由器逻辑,把模型选择做成可替换的外层。这能显著降低推理账单,同时保留对任务精确控制的能力。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对企业采购方:如果供应商的方案没有显式的路由设计、全部请求直接推送高价模型,工程团队应该评估其成本可持续性。优先引入支持本地/异步/分级模型的系统,可以让AI支出不变的情况下处理更多请求。
对普通用户和创作者:短期内感受不到变化,但长期来看,这种模式会推动更多免费或低价的AI工具出现——因为服务商可以把最耗时、最昂贵的大模型调用保留给少数复杂场景,日常任务交给本地模型或异步推理完成。
值得关注的后续
1. 路由方案是否会出现开源参考实现,比如 Tunguz 团队测试用的智能体运行时是否会公开。2. 主流模型 API 供应商(如 OpenAI、Anthropic)是否会在产品层面内置路由功能,或者推出按任务类型定价的新层级。3. 本地模型能力提升后(如通过技能蒸馏让小模型掌握工具调用),路由系统的性价比优势会进一步扩大,这可能会改变大模型 API 的定价逻辑与生态格局。


