
浙大推出让AI会「导演」的角色扮演框架!四通道消息沉浸式交互
一句话看懂:浙江大学联合腾讯优图实验室提出一个名为AdaMARP的自适应多智能体框架,通过“思考-动作-环境-台词”四通道消息格式和场景管理器,让AI不仅会对话,还能调度场景切换、动态引入角色,实现更接近真人演绎的沉浸式叙事体验。
事件核心:发生了什么
该工作已被ACL 2026接收。AdaMARP的核心创新点在于:1)四通道消息格式:将每一轮交互拆解为Thought(内心独白)、Action(动作)、Environment(环境感知)和Speech(台词)四个交织通道,环境线索(如房间内的一根蜡烛、地毯上的蜡痕)首次被当作与台词同等重要的叙事信号。这让AI在推理和互动中能“看”到环境并据此做出因果推理。2)场景管理器:系统内设一个专门的“导演”智能体,负责init_scene(初始化场景)、pick_speaker(决定谁接话)、switch_scene(切换场景)、add_role(动态引入新角色)和end(结束)五种高层动作。在福尔摩斯探案演示案例中,场景管理器能指挥从案发现场换到邻居公寓,中途引入房东太太、雷斯垂德探长等角色,且每一步调度都输出可解释的理由。
训练方面,团队构建了两个互补数据集:AdaRPSet(从81本文学作品中提取并合成多场景轨迹,训练角色“会演”)和AdaSMSet(在合成数据基础上插入发言者选择与理由,训练场景管理器“会导”)。
为什么重要
现有的角色扮演系统普遍存在两个短板:一是环境被当成“背景板”,角色好似在空房间里自言自语,探案类任务几乎无法搜证;二是互动结构静态,场景和人物固定,缺乏动态调度能力。AdaMARP第一次将“环境感知”和“叙事调度”作为同等重要的建模维度。这一设计直接回应了当前大模型在交互式叙事中“能说话但不会演戏”的痛点,把AI从“聊天机器人”升级为“可以参与剧情推进的角色”。对行业而言,这套框架提出了一种可复用的多智能体协作范式——未来的游戏NPC、虚拟主播、互动小说或AI陪玩产品,都可能从中获得一套更成熟的“导演+演员”系统架构。
对用户/开发者/创作者的影响
对内容创作者和游戏策划:如果该框架落地,意味着不需要编写复杂的剧本分支或行为树,只需要提供初始场景、角色设定和粗略情节,系统就能自动调度场景切换与角色出场,显著降低沉浸式叙事内容的制作门槛。对AI开发者:四通道消息格式提供了明确的模型输入输出规范,场景管理器的五种动作也可以作为微调或强化学习的标注标准。这两套接口为开发者搭建更复杂的多角色、多场景AI应用提供了现成底座,尤其适合推理游戏、虚拟角色扮演或教育模拟类场景。对普通用户:目前该工作为论文阶段,尚未发布可体验产品,但概念验证中的“探案抽丝剥茧”体验,预示着未来AI陪伴产品可能从“对话”进化为“共同经历事件”。
值得关注的后续
1)团队是否会开源AdaMARP的模型权重或微调方案?目前公开信息仅显示论文被接收,尚无开源或产品化时间表;2)四通道消息格式是否会被其他大模型框架(如Meta的LLaMA或国产GLM)采纳为标准输入模板,形成生态共识;3)场景管理器在更复杂的“多人竞技+叙事”场景(如桌面角色扮演游戏DND)中的泛化能力——目前演示仅限探案类单人线叙事,面对多用户同时指挥不同角色的并发调度,其鲁棒性尚待验证。
来源:量子位 · 每日最新


