阿里开源：用冻结多模态大模型为文生图训练提供高质量 Reward

不用训练奖励模型，阿里开源PromptEcho用冻结VLM为文生图提供高质量Reward

在文生图模型的强化学习优化中，奖励信号的质量直接决定了模型指令遵循能力的上限。传统方法要么依赖粒度粗糙的指标如CLIP Score，要么需要耗费大量资源训练专门的奖励模型。阿里巴巴研究团队最新开源的PromptEcho提供了一条全新路径：无需任何标注数据、无需训练奖励模型，仅通过冻结一个开源多模态大模型（VLM）的一次前向推理，就能获得高质量的指令遵循奖励信号。这种方法不仅大幅降低了成本，还揭示了预训练损失函数本身就是一个强大的图文对齐奖励来源。

核心机制：VLM能“复述”出prompt，就是最好的reward

PromptEcho的思路非常直观：如果生成图像忠实遵循了prompt，那么一个预训练的多模态大模型在看到这幅图像后，就能以很高的概率逐token“复述”出原始prompt。具体来说，研究人员将图像和一个引导query（如“描述这张图”）喂入冻结的VLM，在teacher-forcing模式下计算模型对原始prompt中每个token的预测概率，这一步的交叉熵损失的负值就是最终的奖励。这一奖励与VLM预训练时的损失函数完全一致，只是优化对象从模型权重变成了生成图像，从而复用VLM在海量数据中习得的图文对齐知识。

相比之下，直接让VLM生成离散的图文一致性评分（如0-5分）则不稳定且粗糙。实验表明，同样基于Qwen3-VL-32B的对比方法InferScore在密集描述场景下甚至不如基线，而PromptEcho的连续对数似然奖励天然具备细粒度区分能力。研究团队在Z-Image和QwenImage-2512两个前沿开源模型上验证了PromptEcho的有效性，并构建了包含10万张高质量图片及详细描述的训练集。

实验全面领先，且具备通用性与可扩展性

在自建DenseAlignBench测试集上，PromptEcho显著提升了密集描述场景下的指令遵循能力。更值得注意的是，在公开Benchmark上（与训练数据分布存在显著差异），PromptEcho同样取得了一致提升，说明奖励信号源自VLM的通用图文对齐知识，具备优秀的跨分布泛化能力。此外，奖励质量随VLM规模同步增长：使用32B参数的Qwen3-VL明显优于8B版本，这意味着随着开源VLM持续进化，PromptEcho的效果上限也将不断提高。

PromptEcho还展现了其作为通用奖励范式的潜力。研究团队将它迁移到电商海报文字渲染任务，仅需将引导query从通用描述改为结构化的OCR识别prompt，将标签从自然语言改为JSON格式。经过强化学习后，海报全图文字正确率从68%提升至75%，提升7个百分点。这证明了只需调整输入格式，同一机制便能适配不同优化目标，完全无需为每个新任务训练专属奖励模型。

总结与展望

PromptEcho的核心洞察简洁而深刻：VLM的预训练损失函数本身就蕴藏着高质量的图文对齐知识，直接拿来用就好。它开辟了一条低成本的奖励构建新路径，使开源社区的模型优化不再受限于奖励模型的标注瓶颈。随着VLM能力的持续增强，PromptEcho的奖励信号也将越来越强，为文生图模型的指令遵循优化提供源源不断的动力。