浙大推出让 AI 会「导演」的角色扮演框架！四通道消息沉浸式交互｜ACL 2026

一句话看懂：浙江大学与腾讯优图实验室联合提出 AdaMARP 框架，通过四通道消息格式和场景管理器，让 AI 角色扮演突破静态对话，实现场景切换、角色调度和叙事推进。该研究已被 ACL 2026 接收。

事件核心：发生了什么

浙大研究团队指出，当前大模型角色扮演系统存在两个关键瓶颈：一是环境信息未被充分建模，角色像是在空房间里自言自语；二是缺乏动态调度能力，故事往往在固定场景和角色间循环。AdaMARP 从两个方向解决这些问题：

第一，定义四通道消息格式（Thought–Action–Environment–Speech），将内心独白、动作、环境感知和对话同时作为输入信号。例如福尔摩斯探案时，系统能同时输出“煤气灯摇曳”的环境线索、“她在回避时间”的推理、“用烟斗敲桌”的动作和追问的话语。

第二，引入场景管理器（Scene Manager），通过5种离散动作（初始化、选择发言者、切换场景、引入新角色、结束）来驱动整体叙事。每次决策都附带自然语言理由，使调度过程可解释、可约束。系统为此构建了两个互补的训练数据集——面向角色“会演”的 AdaRPSet 和面向系统“会导”的 AdaSMSet，后者包含近 50 万条带理由的发言选择记录。

为什么重要

现有主流角色扮演框架更像“能对话的聊天机器人”，缺乏叙事张力。AdaMARP 尝试把环境、动作和调度决策拉回第一线，让 AI 不仅会“说”，还会“想”、会“动”、会“感知环境”。这项工作的核心意义在于：它把角色扮演从“单轮对话匹配”推进到“多轮叙事协同”阶段，填补了行业在复杂场景管理上的空白。目前公开信息显示，该框架已在文学提取和20类主题合成数据上完成训练，并且通过四通道格式的严格因果链（环境线索→推理→动作→话语）来提升沉浸感，而非仅靠扩大模型参数。

对用户/开发者/创作者的影响

对内容创作者和游戏开发者：AdaMARP 提供了一种可复用的叙事调度方案。传统上，开放世界游戏的“动态剧情”需要人工配置大量分支脚本，而该框架通过场景管理器的 pick_speaker 和 switch_scene 动作，可自动决定“谁来接话”和“何时换地图”，降低多角色、多场景叙事的开发成本。

对普通用户：如果你使用过“角色扮演”类 AI 应用（如互动小说、侦探游戏），当前的产品体验通常是静态的——角色和环境不会随着剧情推进而变化。AdaMARP 意味着未来可能出现“能搜证、能换人、能解谜”的沉浸式 AI 剧本，而不仅是和单一角色对话。

对研究员：该团队开源的训练数据（AdaRPSet 和 AdaSMSet）为后续工作提供了基准。尤其是 AdaSMSet 中近50万条带理由的发言选择记录，可推动“可解释调度”方向的发展。

值得关注的后续

1. 框架是否开源：论文已被 ACL 2026 接收，但模型权重和训练代码尚未公开。需要关注其是否有开源计划，这将直接影响开发者能否在其基础上构建应用。

2. 多模态扩展可能性：当前版本以文本形式建模环境（如“煤气灯摇曳”），若后续接入视觉或多模态信号（如实时场景图像），沉浸感可能进一步提升，但这会涉及算力成本问题。

3. 竞品落地进度：Google、微软等公司也在探索“AI 代理人”在游戏和虚拟世界中的应用。AdaMARP 所提出的四通道消息格式是否会成为行业标准，取决于其在真实产品中的效果和开放性。

来源：Readhub · AI

浙大推出让 AI 会「导演」的角色扮演框架！四通道消息沉浸式交互｜ACL 2026