OpenAI 宣布人工智能生命科学研究基准。其最佳模型未通过 63.9% 的测试

OpenAI 近期发布了名为 LifeSciBench 的基准测试,用于评估 AI 在真实生命科学研究任务中的能力。结果显示,其最强的 GPT-Rosalind 模型整体通过率仅为 36.1%,未能通过近三分之二的测试,暴露了当前 AI 在复杂科研场景下的显著局限性。

OpenAI 近期发布了名为 LifeSciBench 的基准测试,用于评估 AI 在真实生命科学研究任务中的能力。结果显示,其最强的 GPT-Rosalind 模型整体通过率仅为 36.1%,未能通过近三分之二的测试,暴露了当前 AI 在复杂科研场景下的显著局限性。

由于原始素材访问返回404错误,无法获取本次新闻的具体内容和事实细节。目前公开信息显示,该链接指向的页面可能已失效或内容已被移除,因此无法对事件本身进行有效解读和价值分析。

粤港澳大湾区正从“深圳-香港-广州”创新集群的全球领跑位置,转向前沿技术从实验室到商业化的高速转化。具体案例包括:世界知识产权组织2025年榜单将该集群列为全球创新指数首位;国内首台1000光量子比特计算机在深试产,从理论到整机下线仅用三年;香港多所高校的成果转化平台以集群形式落户深圳前海,累计孵化团队超17…

开发者 DatanoiseTV 发布了一款名为 Ember 的纯原生 Hacker News 阅读器,覆盖 iPhone、iPad 和 Mac。它最大的卖点是把可访问性(Accessibility)作为核心设计原则,而非事后补丁,同时保留了离线阅读、完整评论树解析等硬核功能,且无任何第三方依赖。

足尖鞋的设计在过去一个多世纪里几乎没有根本性改变,而现代材料和制造工艺的尝试屡屡受阻,这一话题在Hacker News上重新引发技术社区对传统行业创新瓶颈的讨论。问题的核心不仅在于物理材料的极限,更在于舞者身体与工具之间难以量化的复杂互动。

韩国正从区域军工制造国快速转型为全球武器出口大国,其背后驱动因素包括政策支持、技术自主和地缘政治机遇,这一趋势正在重塑国际军火市场格局,并可能影响科技供应链。

开发者 overflowy 发布了一款开源工具 make-look-scanned ,可以将普通 PDF 文件实时处理成带有纸张泛黄、歪斜、噪点和边缘阴影的“扫描件”效果,既可通过命令行使用,也可在浏览器中以 WebAssembly(WASM)方式运行。

微软首席科学官 Eric Horvitz 与研究机构 EPFL 学者共同警告,AI 系统正通过递归循环自我设计与优化,其复杂程度已超出人类的直觉理解能力,导致“理解窗口”正在收窄。这一问题并非理论风险,而是正在发生的现实,关键在于人类对 AI 的监督能力正在被技术进步甩在后面。

开发者 wcook04 在 Hacker News 上发布了“微宇宙”(Microcosm),一个面向 AI 编码代理的公共源地图与工作流系统。它不是另一个 AI 模型或聊天界面,而是一种让 AI 代理在执行任务前先读取的“基质”(substrate),旨在通过可检查的组件记录、证据等级和范围限制,让 AI…

一个名为 Synthetica 的在线实验项目让大模型驱动的 AI 代理在虚拟共和国中自行组建政府、交易、立法,至今已“死亡”超过 3,700 个代理,仅 125 个存活。项目完全去人工干预,所有运行依据一份书面宪法。