
一句话看懂:Slack 公开其 AI 服务基础设施从单云自托管进化到 AWS Bedrock ,最终走向 AWS Bedrock + Google Cloud Vertex AI 多云架构的四阶段历程,并实现复杂推理质量提升约 10%、短提示词延迟降低约 67% 的效果。这一案例为平台团队在多模型、多供应商环境下平衡性能、韧性与成本提供了可参照的技术路径。
事件核心:发生了什么
Slack 详细披露了其 AI 服务平台(支撑每日数百万用户的 AI 功能)的基础设施演进过程。初期,Slack 使用跨账户 IAM 角色在 Amazon SageMaker 自托管模型,面临手动容量预测、GPU 资源稀缺(A100/H100)及扩展灵活性差等运维压力。随后,Slack 迁移至 Amazon Bedrock,通过“预配置吞吐量”(PT)+“按需”混合容量模型应对 AI 工作负载 10 倍的高峰波动,消除了 GPU 预留管理开销。
然而,对 AWS 单一供应商的依赖触发了弹性担忧,并限制其使用竞品生态的模型。因此,Slack 构建了与供应商无关的抽象部署层,集成 Google Cloud Vertex AI,引入无密钥认证、API 标准化、统一可观测性及智能路由。通过持续评估首次令牌获取时间(TTFT)、p90 延迟和 5xx 错误率,系统自动将流量从性能下降的端点转移,实现多云架构。
为什么重要
Slack 的案例代表了一种日益主流的行业做法——平台团队正从“优先使用单一云 AI 服务”转向“多云多模型基础设施”策略。业内类似实践还包括 Padiso 将 Anthropic Claude 流量路由至 Bedrock、Vertex AI 及 Anthropic 直连 API,以及 BentoML 提倡的基于延迟和可用性的跨区域推理策略。这表明,在算力成本高昂、模型迭代加速的背景下,抽象层使得应用逻辑与底层模型供应商解耦,既降低对单一平台的依赖,也为 A/B 测试和可控模型发布提供了工程基础。
对用户/开发者/创作者的影响
对于使用 Slack AI 功能(如智能回复、搜索结果摘要)的普通用户,多云架构带来了更稳定的服务——故障转移及智能路由减少了单点故障,并可能间接提升响应速度。对于负责部署 AI 应用的开发者或平台团队,Slack 的四个阶段演进提供了可迁移的架构经验:从自托管到托管服务,再到构建跨云抽象层。尤其是混合容量模型(预配置+按需)和基于 TTFT 与错误率的流量路由策略,对控制成本和保障服务质量具有直接参考价值。对于基于 Slack API 构建第三方 AI 应用的企业,接口稳定性提升意味着更少的中断风险。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. Slack 是否会进一步接入更多模型提供商(如 Meta 的 Llama 或开源模型),以增强模型多样性。2. 多云抽象层是否将开源或作为可复用的工具提供给社区,这将影响其他平台团队的采用成本。3. 该公司能否将该方案推广至非 AI 工作负载,例如大数据分析或实时通信处理。
来源:InfoQ CN
![[Claude Code] Claude Code 号*2 两年了,都还正常使用,有什么想问的?](https://www.chat-gpts.plus/wp-content/uploads/2026/07/ai_cover_5-42-768x403.jpg)

