
一句话看懂:香港中文大学(深圳)等团队提出了一种名为 MASPOB 的多智能体系统 prompt 优化框架,无需调整系统工作流(拓扑结构),仅通过优化各 Agent 的 prompt 组合,就能在问答、代码生成、数学推理等六大基准上提升性能,平均得分达到 80.58%。该工作已被 ICML 2026 接收为 Spotlight。
事件核心:发生了什么
在实际部署中,医疗诊断、金融审计等场景的多智能体系统(MAS)工作流通常经过专家设计、安全验证和合规审查,上线后难以修改。但香港中文大学(深圳)、香港科技大学(广州)、华南理工大学和立命馆大学的研究团队发现,工作流固定并不意味着优化空间消失——每个 Agent 的 Prompt 配置仍可调整,且直接影响系统表现。
针对这一场景,团队提出了 MASPOB(Multi-Agent System Prompt Optimization via Bandits),一种基于多臂老虎机(Bandit)的样本高效 prompt 优化框架。其核心思路包括:拓扑感知性能代理(用图注意力网络建模 Agent 间依赖)、探索-利用权衡(用线性置信上界构造采集函数)、坐标上升搜索(将联合优化分解为单变量优化)。在 50 次评估预算内,MASPOB 在 HotpotQA(75.43%)、DROP(82.28%)、HumanEval(94.15%)、MBPP(80.65%)、GSM8K(93.90%)、MATH(57.05%)上均优于现有方法 AFlow、MIPRO 等。消融实验表明,GNN 组件带来的平均提升为 2.31%,坐标上升策略相比全局搜索性能损失仅 0.29%-0.48%,但运行时间减少 98% 以上。
为什么重要
MASPOB 的突破在于:它明确回答了“在固定工作流的约束下,多智能体系统还能如何持续优化”这一现实问题。过去,提升 MAS 性能的主流思路是设计更复杂的拓扑结构或调整 Agent 协作逻辑,但在医疗、金融等强监管场景中,这一路径成本极高。MASPOB 提供了一种无需触及系统架构、仅通过“调 prompt”就能获取显著收益的方法,且其优化过程仅需 50 次评估,远低于穷举搜索的数万次调用。这意味着,企业可以在不触发重新合规审查的前提下,基于现有系统框架持续提升性能。
对用户/开发者/创作者的影响
对于部署多智能体系统的开发者或企业:如果你正在管理一个已经上线的 MAS(如客服、审计、代码审查系统),且无法频繁调整 Agent 拓扑,MASPOB 提供了一个可行的优化工具——它无需修改工作流代码,只需针对每个 Agent 的 prompt 候选集进行自动化搜索,且搜索过程本身由 GNN+Bandit 驱动,无需手动调参。对于开源社区,该团队已在 GitHub 上发布代码,开发者可直接将其集成到现有 MAS 部署流程中。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1)工具落地与易用性:目前公开信息显示,MASPOB 代码已开源,但尚未提供开箱即用的 API 或 Docker 镜像。社区生态的完善程度将影响其被企业直接采用的周期。2)更大规模 Agent 的泛化:论文在复杂拓扑(最多 8 个 Agent)上验证了有效性,但真实场景可能涉及数十个 Agent,其坐标上升策略在大规模场景下的收敛速度和性能上限仍需验证。3)竞品跟进:MIPRO(来自微软研究院)和 AFlow(来自 Meta 等机构)是当前主流基线,MASPOB 的 Spotlight 接收可能推动这些团队在拓扑不变假设下改进各自框架。
来源:Readhub · AI


