OpenAI 宣布人工智能生命科学研究基准。其最佳模型未通过 63.9% 的测试

一句话看懂：OpenAI 近期发布了名为 LifeSciBench 的基准测试，用于评估 AI 在真实生命科学研究任务中的能力。结果显示，其最强的 GPT-Rosalind 模型整体通过率仅为 36.1%，未能通过近三分之二的测试，暴露了当前 AI 在复杂科研场景下的显著局限性。

事件核心：发生了什么

OpenAI 于本周推出了一套包含 750 个任务的基准测试 LifeSciBench，旨在评估 AI 系统是否能够实际支持现实的生命科学研究工作，而不仅仅是回答生物学问题。测试结果显示，OpenAI 目前表现最佳的模型 GPT-Rosalind 在所有任务中的通过率为 36.1%，这意味着它未能通过近三分之二的测试项。值得注意的是，该基准测试揭示了一个熟悉的弱点：当任务完全以文本形式呈现时，模型表现较好；一旦涉及支持性文档、图表或复杂数据集，AI 的性能明显下降。GPT-Rosalind 在纯文本任务中的通过率为 45.1%，但面对包含图像、人工制品或 URL 的任务时，通过率骤降至 28.1%。

为什么重要

这一结果对 AI 在专业科研领域的应用具有警示意义。尽管 OpenAI 强调大模型在科学沟通、证据综合和研究成果转译方面变得越来越有能力，但 LifeSciBench 明确表明，目前的 AI 远未达到自主科学家的水平。它在处理多模态、非结构化、高信息密度的真实科研数据时存在明显短板。这对于 AI 行业的竞争格局而言，意味着当前主流的文本训练和推理方式在专业垂直领域仍存在瓶颈。无论是 OpenAI 的闭源模型还是开源替代方案，都需要在跨模态处理、长上下文理解和科学推理能力上做出实质性突破，而非仅依赖参数规模的堆叠。

对用户/开发者/创作者的影响

对于生命科学领域的研究人员和企业而言，这一基准提供了一份务实的参考清单。AI 工具目前可以协助信息筛选、文献摘要和结果翻译，但无法替代科学家在实验设计、数据分析中的专业判断和批判性思维。对于开发者来说，在将大模型 API 集成到科研工作流时，需注意当前模型在处理非文本数据（如图表、实验记录图片）时的性能衰减，不应过度依赖单一模型的输出结果。对于 AI 应用产品的设计者，这意味着构建科研辅助工具时应采用人机协作模式，将 AI 定位为效率增强工具而非决策主体。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，OpenAI 是否会对 GPT-Rosalind 或其后续模型进行针对性训练以提升 LifeSciBench 得分，这将直接影响其他大模型厂商（如 Google DeepMind、Anthropic）在科学推理能力上的技术路线选择。其次，LifeSciBench 的数据集和评估方法是否会开源，从而推动更多科研机构利用该基准测试不同模型的可靠性。最后，如果模型表现持续欠佳，可能减缓生命科学领域企业对 AI 自动化科研流程的采购意愿，转而优先投资于更可控的辅助型工具。

来源：Slashdot (科技资讯)

OpenAI 宣布人工智能生命科学研究基准。其最佳模型未通过 63.9% 的测试

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Signal 的 Meredith Whittaker 希望你记住人工智能聊天机器人“不是你的朋友”

英国内政部斥资 7500 万英镑推出“PoliceAI”以利用人工智能

Ask HN: 你用的是Claude Code、Codex，还是其他什么？

发表回复取消回复