让Agent越用越强:AReaL2.0开源，打造面向自演进智能体的RL基础设施

一句话看懂：2026年7月2日，开源强化学习基础设施项目AReaL发布2.0版本，旨在解决智能体（Agent）在真实业务场景中部署后“只工作不成长”的问题，让Agent能够在安全可控的前提下，通过在线强化学习从实际任务执行中持续学习和进化。

事件核心：发生了什么

AReaL 2.0由蚂蚁集团、清华大学、香港科技大学等团队于2024年启动，2026年5月独立出孵化的Ant InclusionAI项目。新版本专门为已进入真实业务场景的Agent设计，提供了“边用边学”的系统基础设施。通过统一推理入口，Agent在完成真实任务时产生的交互过程（如多轮对话、工具调用、执行结果、用户反馈）可以被记录、整理并反馈到后续训练中，持续优化底层模型，而无需重新开发和手动构建训练数据。以Hermes Agent为例，它可照常接收任务，而AReaL 2.0在后台记录关键交互轨迹，并结合任务完成后的反馈信号进行训练。开发者也可替换为自己的Agent和任务环境，构建同样的在线强化学习流程。该系统还引入了数据代理机制，以应对企业场景中访问控制、数据匿名化、隔离和审计等合规要求。

为什么重要

当前Agent正进入企业生产环境，执行代码编写、信息检索、工具调用等复杂任务。但行业普遍面临一个瓶颈：Agent在部署后能力几乎固定，无法从真实反馈中稳定、安全地学习。AReaL 2.0填补了“能使用工具”与“能通过使用来学习”之间的工程链路缺失。它不再依赖人工构造数据和离线训练后再部署的传统模式，而是让真实业务的成功和失败经验都能直接转化为能力提升的素材。这改变了Agent只能作为一次性训练和部署工具的局面，指向了下一代Agent应用的进化范式：在安全边界内，环境持续变化，Agent也能持续适应。

对用户/开发者/创作者的影响

对于企业开发者和AI基础设施采购方，AReaL 2.0降低了构建自进化Agent的工程门槛。开发者无需重新设计Agent或自研强化学习算法，只需将Agent的请求经由AReaL的统一推理入口接入，即可自动启动在线学习流程。这对于工作流不断变化的企业场景尤为重要：代码库更新、业务流程调整、用户需求迁移，Agent都能通过持续学习来适应，而非因能力固化而逐渐失效。对于关注AI安全的团队，AReaL 2.0的数据代理设计提供了在训练中使用真实业务数据时的合规路径。目前该项目已开源，企业和研究者可以基于自身场景进行二次开发。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，AReaL 2.0的开源是否能吸引足够的开发者生态，特别是企业级用户，形成真实场景的落地案例。第二，传统的大模型API调用与在线强化学习结合的成本控制问题：记录和训练真实轨迹将增加算力消耗，是否有高效方案来平衡学习收益与成本。第三，竞品（如其他RL基础设施项目或大模型厂商内置的在线学习方案）是否会快速跟进，以及蚂蚁、清华团队对后续版本的迭代计划。

来源：AIbase

让Agent越用越强:AReaL2.0开源，打造面向自演进智能体的RL基础设施

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

[Performance Regression] Significant drop in prompt evaluation speed and increased load time in `0.30.0-RC15` on qwen3:0.6b

Not Able to use Dedicatedd GPU

500 Internal Server Error: llama-server startup failed before projector CPU offload retry: llama-server reported out-of-memory during startu

发表回复取消回复