浙大推出让AI会「导演」的角色扮演框架！四通道消息沉浸式交互

一句话看懂：浙江大学联合腾讯优图实验室提出一个名为AdaMARP的自适应多智能体框架，通过“思考-动作-环境-台词”四通道消息格式和场景管理器，让AI不仅会对话，还能调度场景切换、动态引入角色，实现更接近真人演绎的沉浸式叙事体验。

事件核心：发生了什么

该工作已被ACL 2026接收。AdaMARP的核心创新点在于：1）四通道消息格式：将每一轮交互拆解为Thought（内心独白）、Action（动作）、Environment（环境感知）和Speech（台词）四个交织通道，环境线索（如房间内的一根蜡烛、地毯上的蜡痕）首次被当作与台词同等重要的叙事信号。这让AI在推理和互动中能“看”到环境并据此做出因果推理。2）场景管理器：系统内设一个专门的“导演”智能体，负责init_scene（初始化场景）、pick_speaker（决定谁接话）、switch_scene（切换场景）、add_role（动态引入新角色）和end（结束）五种高层动作。在福尔摩斯探案演示案例中，场景管理器能指挥从案发现场换到邻居公寓，中途引入房东太太、雷斯垂德探长等角色，且每一步调度都输出可解释的理由。

训练方面，团队构建了两个互补数据集：AdaRPSet（从81本文学作品中提取并合成多场景轨迹，训练角色“会演”）和AdaSMSet（在合成数据基础上插入发言者选择与理由，训练场景管理器“会导”）。

为什么重要

现有的角色扮演系统普遍存在两个短板：一是环境被当成“背景板”，角色好似在空房间里自言自语，探案类任务几乎无法搜证；二是互动结构静态，场景和人物固定，缺乏动态调度能力。AdaMARP第一次将“环境感知”和“叙事调度”作为同等重要的建模维度。这一设计直接回应了当前大模型在交互式叙事中“能说话但不会演戏”的痛点，把AI从“聊天机器人”升级为“可以参与剧情推进的角色”。对行业而言，这套框架提出了一种可复用的多智能体协作范式——未来的游戏NPC、虚拟主播、互动小说或AI陪玩产品，都可能从中获得一套更成熟的“导演+演员”系统架构。

对用户/开发者/创作者的影响

对内容创作者和游戏策划：如果该框架落地，意味着不需要编写复杂的剧本分支或行为树，只需要提供初始场景、角色设定和粗略情节，系统就能自动调度场景切换与角色出场，显著降低沉浸式叙事内容的制作门槛。对AI开发者：四通道消息格式提供了明确的模型输入输出规范，场景管理器的五种动作也可以作为微调或强化学习的标注标准。这两套接口为开发者搭建更复杂的多角色、多场景AI应用提供了现成底座，尤其适合推理游戏、虚拟角色扮演或教育模拟类场景。对普通用户：目前该工作为论文阶段，尚未发布可体验产品，但概念验证中的“探案抽丝剥茧”体验，预示着未来AI陪伴产品可能从“对话”进化为“共同经历事件”。

值得关注的后续

1）团队是否会开源AdaMARP的模型权重或微调方案？目前公开信息仅显示论文被接收，尚无开源或产品化时间表；2）四通道消息格式是否会被其他大模型框架（如Meta的LLaMA或国产GLM）采纳为标准输入模板，形成生态共识；3）场景管理器在更复杂的“多人竞技+叙事”场景（如桌面角色扮演游戏DND）中的泛化能力——目前演示仅限探案类单人线叙事，面对多用户同时指挥不同角色的并发调度，其鲁棒性尚待验证。

来源：量子位 · 每日最新

浙大推出让AI会「导演」的角色扮演框架！四通道消息沉浸式交互