拒绝大力出奇迹,PRISM 框架让 dLLM 也能高效 Test-Time Scaling

拒绝大力出奇迹,PRISM 框架让 dLLM 也能高效 Test-Time Scaling

拒绝大力出奇迹,PRISM 框架让 dLLM 也能高效 Test-Time Scaling

一句话看懂:由 Jinbin Bai 等研究者提出的 PRISM 框架,首次为离散扩散语言模型(dLLM)设计了一套高效的推理时扩展方法,在不依赖外部验证器、不简单堆算力的前提下,用更少的去噪步骤实现了显著推理性能提升,入选 ICML 2026。

事件核心:发生了什么

团队在论文《Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models》中提出 PRISM,核心包含三个组件:层次化轨迹搜索(HTS)将去噪过程拆分为早期探索、中期裁剪和后期精修,将计算复杂度从 Best-of-N 的 O(NT) 降低至接近 O(N+KT);局部重掩码分支保留高置信 token,仅对低置信位置重新采样探索,避免整条轨迹浪费;自验证反馈(SVF)复用同一个 dLLM 作为二分类验证器,通过 Yes/No logits 归一化分数打分,额外开销低于总去噪步骤的 10%。

实验覆盖 GSM8K、MATH-500、HumanEval、MBPP 四个基准,使用 LLaDA-8B-Instruct、Dream-7B-Instruct 和 LLaDA-2.0-mini 模型。在 LLaDA-8B-Instruct 上,PRISM(K=8)将 GSM8K 从 67.58% 提升至 85.30%,MATH-500 从 26.40% 提升至 42.80%;HumanEval 提升 24.39 个百分点,MBPP 提升 16.40 个百分点。与 Best-of-16 相比,PRISM 在 GSM8K 上以 1048 次去噪达到 85.30%,而后者需 4096 次才达到 87.50%,实现超 4 倍去噪计算节省。

为什么重要

过去,推理时扩展(Test-Time Scaling)方法大多为主流的自回归大模型设计,依赖前缀式树搜索和过程奖励模型,而离散扩散语言模型(如 LLaDA、Dream、Mercury)采用并行去噪生成方式,传统方法无法直接高效适配。PRISM 首次证明,dLLM 也可以在推理阶段通过结构化搜索而非单纯增加采样次数来持续提升能力,且无需额外加载验证器模型,降低了工程部署的显存和延迟负担。这意味着非自回归语言模型不再只是“更快生成的替代品”,而是有可能在复杂推理、规划与自我修正任务中与传统自回归模型展开竞争,影响整个大模型架构选型和推理优化的技术路线。

对用户/开发者/创作者的影响

对于开发者,PRISM 提供了一套开源的、可复现的推理优化方案,代码已在 GitHub 公开(github.com/viiika/Prism)。部署 dLLM 时无需额外加载 reward model,显著降低资源需求,适合预算有限的团队。对于使用 LLaDA 等模型的创作者,PRISM 在数学推理和代码生成任务上带来的提升意味着,未来借助扩散模型进行更可靠的逻辑生成(如自动编程、结构化问答)成为可能。不过,目前公开信息显示该框架仍处于研究阶段,尚未集成到主流推理服务 API 或框架中。

值得关注的后续

第一,PRISM 是否能被开源社区快速集成至 Hugging Face Transformers 或 LangChain 等工具中,降低使用门槛。第二,论文实验使用 8B 规模模型,该框架在更大模型(如百亿参数级)上的扩展性和效率表现尚待验证。第三,竞争方向:其他研究团队是否会跟进推出面向 dLLM 的推理扩展方法,或将基于外部 verifier 的方案与 PRISM 的轻量自验证路径融合。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 3598

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注