浙大推出让 AI 会「导演」的角色扮演框架!四通道消息沉浸式交互|ACL 2026

浙大推出让 AI 会「导演」的角色扮演框架!四通道消息沉浸式交互|ACL 2026

浙大推出让 AI 会「导演」的角色扮演框架!四通道消息沉浸式交互|ACL 2026

一句话看懂:浙江大学与腾讯优图实验室联合提出 AdaMARP 框架,通过四通道消息格式和场景管理器,让 AI 角色扮演突破静态对话,实现场景切换、角色调度和叙事推进。该研究已被 ACL 2026 接收。

事件核心:发生了什么

浙大研究团队指出,当前大模型角色扮演系统存在两个关键瓶颈:一是环境信息未被充分建模,角色像是在空房间里自言自语;二是缺乏动态调度能力,故事往往在固定场景和角色间循环。AdaMARP 从两个方向解决这些问题:

第一,定义四通道消息格式(Thought–Action–Environment–Speech),将内心独白、动作、环境感知和对话同时作为输入信号。例如福尔摩斯探案时,系统能同时输出“煤气灯摇曳”的环境线索、“她在回避时间”的推理、“用烟斗敲桌”的动作和追问的话语。

第二,引入场景管理器(Scene Manager),通过5种离散动作(初始化、选择发言者、切换场景、引入新角色、结束)来驱动整体叙事。每次决策都附带自然语言理由,使调度过程可解释、可约束。系统为此构建了两个互补的训练数据集——面向角色“会演”的 AdaRPSet 和面向系统“会导”的 AdaSMSet,后者包含近 50 万条带理由的发言选择记录。

为什么重要

现有主流角色扮演框架更像“能对话的聊天机器人”,缺乏叙事张力。AdaMARP 尝试把环境、动作和调度决策拉回第一线,让 AI 不仅会“说”,还会“想”、会“动”、会“感知环境”。这项工作的核心意义在于:它把角色扮演从“单轮对话匹配”推进到“多轮叙事协同”阶段,填补了行业在复杂场景管理上的空白。目前公开信息显示,该框架已在文学提取和20类主题合成数据上完成训练,并且通过四通道格式的严格因果链(环境线索→推理→动作→话语)来提升沉浸感,而非仅靠扩大模型参数。

对用户/开发者/创作者的影响

对内容创作者和游戏开发者:AdaMARP 提供了一种可复用的叙事调度方案。传统上,开放世界游戏的“动态剧情”需要人工配置大量分支脚本,而该框架通过场景管理器的 pick_speaker 和 switch_scene 动作,可自动决定“谁来接话”和“何时换地图”,降低多角色、多场景叙事的开发成本。

对普通用户:如果你使用过“角色扮演”类 AI 应用(如互动小说、侦探游戏),当前的产品体验通常是静态的——角色和环境不会随着剧情推进而变化。AdaMARP 意味着未来可能出现“能搜证、能换人、能解谜”的沉浸式 AI 剧本,而不仅是和单一角色对话。

对研究员:该团队开源的训练数据(AdaRPSet 和 AdaSMSet)为后续工作提供了基准。尤其是 AdaSMSet 中近50万条带理由的发言选择记录,可推动“可解释调度”方向的发展。

值得关注的后续

1. 框架是否开源:论文已被 ACL 2026 接收,但模型权重和训练代码尚未公开。需要关注其是否有开源计划,这将直接影响开发者能否在其基础上构建应用。

2. 多模态扩展可能性:当前版本以文本形式建模环境(如“煤气灯摇曳”),若后续接入视觉或多模态信号(如实时场景图像),沉浸感可能进一步提升,但这会涉及算力成本问题。

3. 竞品落地进度:Google、微软等公司也在探索“AI 代理人”在游戏和虚拟世界中的应用。AdaMARP 所提出的四通道消息格式是否会成为行业标准,取决于其在真实产品中的效果和开放性。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 3204

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注