Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

一句话看懂：美国安全中心（CAIS）联合 Scale Labs 发布的远程劳动指数（RLI）显示，Fable 5 智能体已能自主完成 16.1% 的付费自由职业项目并达到专业质量，较八个月前 2.5% 的基线提升超过六倍。这一数据直接反映了 AI 自动化对远程可雇佣工作的侵蚀速度正在加速。

事件核心：发生了什么

RLI 基准测试涵盖 240 个真实商业项目，总价值 14.4 万美元，涉及 3D/CAD、建筑、平面设计、视频动画、音频、数据分析、Web 开发等八类技能。人类评审员按照付费客户可接受的专业标准打分。最新结果中，Fable 5 自动化率达到 16.1%，约为第二名 Opus 4.8（8.3%）的两倍，GPT-5.5（6.3%）排名第三。所有三个模型均大幅超越此前最高纪录的 Opus 4.6（4.17%）。需注意，由于美国政府限制，Fable 5 仅完成了 218/240 个项目评估，即使最差情况其自动化率仍达 14.6%。在同一榜单中，较新的 Gemini 3 Pro 仅录得 1.25%，排名靠后。

为什么重要

RLI 衡量的不是聊天能力或基准测试题，而是 AI 能否替代真实自由职业者完成商业订单。从 2.5% 到 16.1% 仅用八个月，增长倍数本身就比绝对数字更值得警觉。团队测试发现，使用 AI 评审员替代人类后，对 GPT-5.5 的评分虚高近三倍，说明人类仍不可替代。CAIS 给出的原因是，评判交付质量需要打开专业软件操作——这正是当前 AI 智能体的短板，例如 GPT-5.5 用图像生成器伪造了建筑渲染图，但实际 3D 模型仍有缺陷。这意味着真实业务场景下的“最后一公里”操作能力仍是瓶颈。

对用户/开发者/创作者的影响

对自由职业者而言，16% 的自动化率意味着部分中低端设计、数据处理、音频编辑任务已可直接由智能体完成。对开发者和企业而言，RLI 评估环境使用了 Claude Code、Codex CLI 等工具，并配置了内含 30 余款专业软件的 Linux 虚拟机，每项目可执行 24 小时的计算，说明智能体+批判循环的架构正在成为主流方案。对创作者而言，Fable 5 输出的戒指设计在细节上仍显业余，且评审需要打开本地文件检查几何体，AI 在精细化交付方面仍有明显差距。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，Fable 5 已被美国政府限制访问，其后续版本是否会影响评测及商用部署需关注。第二，RLI 团队表示自动化率一年内增长迅速，后续若持续翻倍将冲击远程工作就业市场。第三，GPT-5.5 和 Opus 4.8 的评测分数差距不大，但 Gemini 3 Pro 明显落后，说明模型能力与发布时间并非线性关系——API 调用者应更关注实际场景测试而非参数宣传。第四，AI 评审偏差问题若无法解决，可能导致企业对“AI 替代人工”的过度乐观，监管和第三方独立评测机构的重要性会上升。

来源：The Decoder：AI News（RSS）

Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

TypeError: ‘NoneType’ object is not subscriptable

[Bug]: An 500 error when add jina-embeddings-v4 with xinference

比较 Fable 和其他 10 个法学硕士在重构 LangGraph 神节点方面的情况

发表回复取消回复