OpenAI 宣布人工智能生命科学研究基准。其最佳模型未通过 63.9% 的测试

OpenAI 近期发布了名为 LifeSciBench 的基准测试,用于评估 AI 在真实生命科学研究任务中的能力。结果显示,其最强的 GPT-Rosalind 模型整体通过率仅为 36.1%,未能通过近三分之二的测试,暴露了当前 AI 在复杂科研场景下的显著局限性。

OpenAI 宣布人工智能生命科学研究基准。其最佳模型未通过 63.9% 的测试

一句话看懂:OpenAI 近期发布了名为 LifeSciBench 的基准测试,用于评估 AI 在真实生命科学研究任务中的能力。结果显示,其最强的 GPT-Rosalind 模型整体通过率仅为 36.1%,未能通过近三分之二的测试,暴露了当前 AI 在复杂科研场景下的显著局限性。

事件核心:发生了什么

OpenAI 于本周推出了一套包含 750 个任务的基准测试 LifeSciBench,旨在评估 AI 系统是否能够实际支持现实的生命科学研究工作,而不仅仅是回答生物学问题。测试结果显示,OpenAI 目前表现最佳的模型 GPT-Rosalind 在所有任务中的通过率为 36.1%,这意味着它未能通过近三分之二的测试项。值得注意的是,该基准测试揭示了一个熟悉的弱点:当任务完全以文本形式呈现时,模型表现较好;一旦涉及支持性文档、图表或复杂数据集,AI 的性能明显下降。GPT-Rosalind 在纯文本任务中的通过率为 45.1%,但面对包含图像、人工制品或 URL 的任务时,通过率骤降至 28.1%。

为什么重要

这一结果对 AI 在专业科研领域的应用具有警示意义。尽管 OpenAI 强调大模型在科学沟通、证据综合和研究成果转译方面变得越来越有能力,但 LifeSciBench 明确表明,目前的 AI 远未达到自主科学家的水平。它在处理多模态、非结构化、高信息密度的真实科研数据时存在明显短板。这对于 AI 行业的竞争格局而言,意味着当前主流的文本训练和推理方式在专业垂直领域仍存在瓶颈。无论是 OpenAI 的闭源模型还是开源替代方案,都需要在跨模态处理、长上下文理解和科学推理能力上做出实质性突破,而非仅依赖参数规模的堆叠。

对用户/开发者/创作者的影响

对于生命科学领域的研究人员和企业而言,这一基准提供了一份务实的参考清单。AI 工具目前可以协助信息筛选、文献摘要和结果翻译,但无法替代科学家在实验设计、数据分析中的专业判断和批判性思维。对于开发者来说,在将大模型 API 集成到科研工作流时,需注意当前模型在处理非文本数据(如图表、实验记录图片)时的性能衰减,不应过度依赖单一模型的输出结果。对于 AI 应用产品的设计者,这意味着构建科研辅助工具时应采用人机协作模式,将 AI 定位为效率增强工具而非决策主体。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,OpenAI 是否会对 GPT-Rosalind 或其后续模型进行针对性训练以提升 LifeSciBench 得分,这将直接影响其他大模型厂商(如 Google DeepMind、Anthropic)在科学推理能力上的技术路线选择。其次,LifeSciBench 的数据集和评估方法是否会开源,从而推动更多科研机构利用该基准测试不同模型的可靠性。最后,如果模型表现持续欠佳,可能减缓生命科学领域企业对 AI 自动化科研流程的采购意愿,转而优先投资于更可控的辅助型工具。

来源:Slashdot (科技资讯)

celebrityanime
celebrityanime
文章: 9151

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注