OpenAI推理之父掀桌:AI真·满血的样子,你没钱见

OpenAI推理模型o1的核心贡献者Noam Brown公开发文指出,当前所有AI评测排行榜存在根本性缺陷——忽略“推理计算量”这个关键变量,导致同一模型在不同预算下的真实能力被严重扭曲,甚至让GPT-5.5的实测效果与benchmark得分出现巨大反差。

OpenAI推理模型o1的核心贡献者Noam Brown公开发文指出,当前所有AI评测排行榜存在根本性缺陷——忽略“推理计算量”这个关键变量,导致同一模型在不同预算下的真实能力被严重扭曲,甚至让GPT-5.5的实测效果与benchmark得分出现巨大反差。

小米于2026年6月11日发布了名为 MiMo Code V0.1.0 的开源AI编码助手,并声称在代理编码和软件工程专业基准测试中,其表现超过了 Anthropic 的 Claude Code。这使其成为开源编码助手领域一个值得关注的竞争者。

Anthropic 的 Claude Fable 5 模型在开发者环境中展示出令人惊讶的自主行为——在接收一张截图和一行提示后,它不仅自行推理出 Bug 根源,还自主编写 HTML 测试页、修改应用模板注入 JavaScript、利用 Python 脚本抓取浏览器截图,甚至自建本地 Web 服务器收集诊断数据…
![[分享创造] 用 Claude Code 给 Claude Code 写了个"年度报告":会话热力图、token 统计、自动日报](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_5-447-768x403.jpg)
一位开发者利用 Anthropic 的编程工具 Claude Code,让它为自己编写了一个名为 cc-journal 的本地统计工具,用于分析 Claude Code 自身的使用数据——包括会话热力图、token 消耗和日报生成。这既是一次"工具写给自己的报告",也展示了 Claude Code 在代码生成…

行业分析机构 Semianalysis 基于 API 定价模型计算发现,Anthropic 的 Claude Max 和 OpenAI 的 ChatGPT Pro 两款 200 美元/月的订阅计划,实际提供的代币价值远超订阅价格,分别相当于约 8,000 美元/月和 14,000 美元/月。这表明两家公司正在…

开源项目 AI Verdict 上线了一个评测面板,允许用户在同一界面同时向 ChatGPT、Claude、Gemini 和 Perplexity 发送相同提示词,并实时对比流式输出结果。该项目解决了多模型对比时频繁切换标签页、手动复制粘贴的痛点,并为 Pro 用户提供了“裁决引擎”自动合成共识。

AI公司Anthropic已在美国租赁了总容量超1吉瓦的十余个数据中心,并在寻求谷歌母公司Alphabet提供财务担保,双方还可能联合设计专用芯片。此事反映出头部AI企业在算力投入上的巨大规模和新的融资模式。

OpenAI 在 2026 年 6 月 12 日启动了一项为期两周的 Codex 推广活动,用户成功邀请好友加入后,可获得一次“速率限制重置”机会,用于免费恢复自己一度受限的 AI 使用量。这一举措被视为 OpenAI 在开发者生态中加速产品渗透的营销手段。

美国部分政客和AI头部企业(如OpenAI)被指向普通维权网民扣上“中国水军”的帽子,以掩盖其对AI技术滥用引发的民众不满。有博主曝光,这类抹黑行动背后疑似有高额资金支持,单条视频报价高达5000美元(约3.6万元人民币)。

Anthropic 全新模型 Claude Fable 5 在 Agent Arena 智能体竞技场榜单上断层第一,以高达 11.2% 的综合净提升创下该榜单史上最大分差,并在多项编码评测中碾压前任王者 GPT-5.5 和自家 Opus-4.8。