不改工作流，多智能体系统也能继续涨性能｜ICML 2026 Spotlight

一句话看懂：香港中文大学（深圳）等团队提出了一种名为 MASPOB 的多智能体系统 prompt 优化框架，无需调整系统工作流（拓扑结构），仅通过优化各 Agent 的 prompt 组合，就能在问答、代码生成、数学推理等六大基准上提升性能，平均得分达到 80.58%。该工作已被 ICML 2026 接收为 Spotlight。

事件核心：发生了什么

在实际部署中，医疗诊断、金融审计等场景的多智能体系统（MAS）工作流通常经过专家设计、安全验证和合规审查，上线后难以修改。但香港中文大学（深圳）、香港科技大学（广州）、华南理工大学和立命馆大学的研究团队发现，工作流固定并不意味着优化空间消失——每个 Agent 的 Prompt 配置仍可调整，且直接影响系统表现。

针对这一场景，团队提出了 MASPOB（Multi-Agent System Prompt Optimization via Bandits），一种基于多臂老虎机（Bandit）的样本高效 prompt 优化框架。其核心思路包括：拓扑感知性能代理（用图注意力网络建模 Agent 间依赖）、探索-利用权衡（用线性置信上界构造采集函数）、坐标上升搜索（将联合优化分解为单变量优化）。在 50 次评估预算内，MASPOB 在 HotpotQA（75.43%）、DROP（82.28%）、HumanEval（94.15%）、MBPP（80.65%）、GSM8K（93.90%）、MATH（57.05%）上均优于现有方法 AFlow、MIPRO 等。消融实验表明，GNN 组件带来的平均提升为 2.31%，坐标上升策略相比全局搜索性能损失仅 0.29%-0.48%，但运行时间减少 98% 以上。

为什么重要

MASPOB 的突破在于：它明确回答了“在固定工作流的约束下，多智能体系统还能如何持续优化”这一现实问题。过去，提升 MAS 性能的主流思路是设计更复杂的拓扑结构或调整 Agent 协作逻辑，但在医疗、金融等强监管场景中，这一路径成本极高。MASPOB 提供了一种无需触及系统架构、仅通过“调 prompt”就能获取显著收益的方法，且其优化过程仅需 50 次评估，远低于穷举搜索的数万次调用。这意味着，企业可以在不触发重新合规审查的前提下，基于现有系统框架持续提升性能。

对用户/开发者/创作者的影响

对于部署多智能体系统的开发者或企业：如果你正在管理一个已经上线的 MAS（如客服、审计、代码审查系统），且无法频繁调整 Agent 拓扑，MASPOB 提供了一个可行的优化工具——它无需修改工作流代码，只需针对每个 Agent 的 prompt 候选集进行自动化搜索，且搜索过程本身由 GNN+Bandit 驱动，无需手动调参。对于开源社区，该团队已在 GitHub 上发布代码，开发者可直接将其集成到现有 MAS 部署流程中。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1）工具落地与易用性：目前公开信息显示，MASPOB 代码已开源，但尚未提供开箱即用的 API 或 Docker 镜像。社区生态的完善程度将影响其被企业直接采用的周期。2）更大规模 Agent 的泛化：论文在复杂拓扑（最多 8 个 Agent）上验证了有效性，但真实场景可能涉及数十个 Agent，其坐标上升策略在大规模场景下的收敛速度和性能上限仍需验证。3）竞品跟进：MIPRO（来自微软研究院）和 AFlow（来自 Meta 等机构）是当前主流基线，MASPOB 的 Spotlight 接收可能推动这些团队在拓扑不变假设下改进各自框架。

来源：Readhub · AI

不改工作流，多智能体系统也能继续涨性能｜ICML 2026 Spotlight

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

警察因在多起案件中使用人工智能“创造证据”而受到调查

开源法典

Shutterstock“进化”为“人类主导、人工智能驱动的创意平台”

发表回复取消回复