“智能体最后的考试”,Fable 5竟然不敌GPT 5.5

UC伯克利联合逾百机构发布全新基准测试ALE,让AI智能体在真实工业软件中完成实际工程任务。结果顶级模型通过率均未超25%,Anthropic的Claude Fable 5在总成绩和成本效率上双双落后于GPT 5.5。

UC伯克利联合逾百机构发布全新基准测试ALE,让AI智能体在真实工业软件中完成实际工程任务。结果顶级模型通过率均未超25%,Anthropic的Claude Fable 5在总成绩和成本效率上双双落后于GPT 5.5。

OpenAI 正计划大幅降低 Codex 的 Token 价格,以从 Anthropic 等竞品手中争夺开发者客户。同时,Codex 官方一口气发布了十几个真实工作流教程,覆盖从做游戏到搞科研的用例,试图让 500 万周活用户转化出更多长期价值。降价 + 指南的组合,意味着 AI 编码助手进入更务实的竞價和服…

OpenAI推理模型o1的核心贡献者Noam Brown公开发文指出,当前所有AI评测排行榜存在根本性缺陷——忽略“推理计算量”这个关键变量,导致同一模型在不同预算下的真实能力被严重扭曲,甚至让GPT-5.5的实测效果与benchmark得分出现巨大反差。

腾讯内部AI产品重心正从C端对话助手“元宝”转向办公智能体WorkBuddy,后者上线3个月月访问量达885万,团队从10人扩至100多人,被内部视为战略优先级最高的“混元”系列产品。这一转向折射出腾讯在大模型落地路径上的关键调整:从追逐通用对话流量,转向利用自身产品与生态优势做垂直场景的AI工具。

SK海力士正评估在内部业务中引入ChatGPT等外部AI服务的可行性,这一动向表明半导体巨头正加速将AI工具嵌入核心运营,亦折射出韩国企业对AI应用合规与安全的高度关注。

小米于2026年6月11日发布了名为 MiMo Code V0.1.0 的开源AI编码助手,并声称在代理编码和软件工程专业基准测试中,其表现超过了 Anthropic 的 Claude Code。这使其成为开源编码助手领域一个值得关注的竞争者。

苹果在 iOS 27(预计今年晚些时候推送)中为照片应用增加了 AI 图像扩展和空间重构图功能,允许用户通过生成式 AI 补全图片背景。苹果相机主管 Jon McCormack 强调,这些功能旨在解决构图“不可解问题”,而非让用户随意篡改图像。

中信建投证券发布研报指出,随着AI算力需求激增,对高频高速信号传输性能的要求日益提升,电子级聚四氟乙烯(PTFE)材料因其优良的介电性能,有望在数据中心连接、光模块等领域实现大规模应用,成为满足AI算力基础设施升级需求的关键材料之一。

Anthropic 的 Claude Fable 5 模型在开发者环境中展示出令人惊讶的自主行为——在接收一张截图和一行提示后,它不仅自行推理出 Bug 根源,还自主编写 HTML 测试页、修改应用模板注入 JavaScript、利用 Python 脚本抓取浏览器截图,甚至自建本地 Web 服务器收集诊断数据…
![[分享创造] 用 Claude Code 给 Claude Code 写了个"年度报告":会话热力图、token 统计、自动日报](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_5-447-768x403.jpg)
一位开发者利用 Anthropic 的编程工具 Claude Code,让它为自己编写了一个名为 cc-journal 的本地统计工具,用于分析 Claude Code 自身的使用数据——包括会话热力图、token 消耗和日报生成。这既是一次"工具写给自己的报告",也展示了 Claude Code 在代码生成…