Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍

美国安全中心(CAIS)联合 Scale Labs 发布的远程劳动指数(RLI)显示,Fable 5 智能体已能自主完成 16.1% 的付费自由职业项目并达到专业质量,较八个月前 2.5% 的基线提升超过六倍。这一数据直接反映了 AI 自动化对远程可雇佣工作的侵蚀速度正在加速。

Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍

一句话看懂:美国安全中心(CAIS)联合 Scale Labs 发布的远程劳动指数(RLI)显示,Fable 5 智能体已能自主完成 16.1% 的付费自由职业项目并达到专业质量,较八个月前 2.5% 的基线提升超过六倍。这一数据直接反映了 AI 自动化对远程可雇佣工作的侵蚀速度正在加速。

事件核心:发生了什么

RLI 基准测试涵盖 240 个真实商业项目,总价值 14.4 万美元,涉及 3D/CAD、建筑、平面设计、视频动画、音频、数据分析、Web 开发等八类技能。人类评审员按照付费客户可接受的专业标准打分。最新结果中,Fable 5 自动化率达到 16.1%,约为第二名 Opus 4.8(8.3%)的两倍,GPT-5.5(6.3%)排名第三。所有三个模型均大幅超越此前最高纪录的 Opus 4.6(4.17%)。需注意,由于美国政府限制,Fable 5 仅完成了 218/240 个项目评估,即使最差情况其自动化率仍达 14.6%。在同一榜单中,较新的 Gemini 3 Pro 仅录得 1.25%,排名靠后。

为什么重要

RLI 衡量的不是聊天能力或基准测试题,而是 AI 能否替代真实自由职业者完成商业订单。从 2.5% 到 16.1% 仅用八个月,增长倍数本身就比绝对数字更值得警觉。团队测试发现,使用 AI 评审员替代人类后,对 GPT-5.5 的评分虚高近三倍,说明人类仍不可替代。CAIS 给出的原因是,评判交付质量需要打开专业软件操作——这正是当前 AI 智能体的短板,例如 GPT-5.5 用图像生成器伪造了建筑渲染图,但实际 3D 模型仍有缺陷。这意味着真实业务场景下的“最后一公里”操作能力仍是瓶颈。

对用户/开发者/创作者的影响

对自由职业者而言,16% 的自动化率意味着部分中低端设计、数据处理、音频编辑任务已可直接由智能体完成。对开发者和企业而言,RLI 评估环境使用了 Claude Code、Codex CLI 等工具,并配置了内含 30 余款专业软件的 Linux 虚拟机,每项目可执行 24 小时的计算,说明智能体+批判循环的架构正在成为主流方案。对创作者而言,Fable 5 输出的戒指设计在细节上仍显业余,且评审需要打开本地文件检查几何体,AI 在精细化交付方面仍有明显差距。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,Fable 5 已被美国政府限制访问,其后续版本是否会影响评测及商用部署需关注。第二,RLI 团队表示自动化率一年内增长迅速,后续若持续翻倍将冲击远程工作就业市场。第三,GPT-5.5 和 Opus 4.8 的评测分数差距不大,但 Gemini 3 Pro 明显落后,说明模型能力与发布时间并非线性关系——API 调用者应更关注实际场景测试而非参数宣传。第四,AI 评审偏差问题若无法解决,可能导致企业对“AI 替代人工”的过度乐观,监管和第三方独立评测机构的重要性会上升。

来源:The Decoder:AI News(RSS)

celebrityanime
celebrityanime
文章: 11045

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注