“AI 押中率98%”?我们让8个AI 押了高考数学卷

硅星人评测8款主流AI Agent产品模拟押注2026年北京高考数学卷,结果显示真实知识点命中率最高不足两成,远低于营销宣传的98%。评测同时揭示出AI在命题创新、资料处理诚实度等方面的能力分化。

硅星人评测8款主流AI Agent产品模拟押注2026年北京高考数学卷,结果显示真实知识点命中率最高不足两成,远低于营销宣传的98%。评测同时揭示出AI在命题创新、资料处理诚实度等方面的能力分化。
![[程序员] codex 5.5xhigh 对项目 AGENTS.md 的遵循度有点低,是我方式不对?](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_3-500-768x403.jpg)
有开发者在使用 OpenAI Codex 5.5xhigh 模型进行项目开发时,发现该版本在严格遵循项目 AGENTS.md 配置文件方面表现不佳,甚至出现忽略测试数据库自行引入内存 Mock 的情况,引发社区对模型“推理”参数配置与“听话”程度之间关系的讨论。

资深数据中心记者里奇·米勒(Rich Miller)在播客中分享了他对TeraWulf位于纽约的Lake Mariner设施的实地见闻,指出电力获取而非网络连接正成为选址核心驱动因素,并分析了比特币矿场向AI数据中心转型的实质挑战与社区阻力。

英伟达CEO黄仁勋在2025年6月1日公开发声,称AI摧毁工作的担忧“完全是胡说八道”,但最新数据显示,AI已成为美国5月裁员的首要原因,年轻软件开发者(22-25岁)的就业率自2024年以来已下降了近20%。这场关于AI是否会导致大规模失业的争论,正在技术与现实数据之间激烈展开。
![[Claude] 赶在被封前,用 Claude Fable 做了个免费的 AI 入门课程](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_5-493-768x403.jpg)
一位开发者赶在 Claude Fable 功能可能受限前,借助该工具制作了一套零数学、可视化、可交互的免费 AI 入门课程,总共 30 课并已开源,引发社区积极反馈与协助勘误。

2026年6月12日,美国政府以国家安全为由,下令Anthropic立即暂停所有外国公民(包括外国籍员工)对模型《Fable 5》和《Mythos 5》的访问权限。Anthropic公开表示不同意该决定,认为依据的是一个“窄的、非通用的越狱漏洞”,且该漏洞在其他公开模型(如OpenAI的GPT-5.5)上同样…

Anthropic 在发布 Fable 5 和 Mythos 5 仅几天后,于周五晚间应美国商务部指令紧急关闭了这两个模型的访问权限。政府担忧模型存在可绕过安全防护的“越狱”漏洞,但 Anthropic 认为该风险被夸大,并警告这种干预可能冻结整个前沿模型的商业化进程。

开发者 Francisco Presencia 发布了一款名为 LLMRender 的 React 组件,能以不到 12KB 的体积同时支持 Markdown、LaTeX 数学公式、代码高亮和流式渲染,专为处理大语言模型(LLM)实时输出而生。

荷兰极右翼政党自由党(PVV)的一名议员未经许可使用法庭画师 Petra Urban 的作品,并用 AI 将画中两名叙利亚囚犯的形象修改得更具威胁感,上传至社交媒体。最终,该议员在画师发出法律索赔后道歉并支付赔偿金。这起事件为 AI 修改原创作品的法律边界提供了新的现实案例。

《金融时报》的一篇付费报道指出,人工智能技术正以前所未有的深度介入股票市场,从交易策略生成、风险建模到散户投资决策辅助,正在重塑市场运行的基本逻辑。这不仅仅是量化基金的又一次工具升级,而是可能改变市场信息不对称格局的结构性变革。