
一句话看懂:OpenAI 近期发布了名为 LifeSciBench 的基准测试,用于评估 AI 在真实生命科学研究任务中的能力。结果显示,其最强的 GPT-Rosalind 模型整体通过率仅为 36.1%,未能通过近三分之二的测试,暴露了当前 AI 在复杂科研场景下的显著局限性。
事件核心:发生了什么
OpenAI 于本周推出了一套包含 750 个任务的基准测试 LifeSciBench,旨在评估 AI 系统是否能够实际支持现实的生命科学研究工作,而不仅仅是回答生物学问题。测试结果显示,OpenAI 目前表现最佳的模型 GPT-Rosalind 在所有任务中的通过率为 36.1%,这意味着它未能通过近三分之二的测试项。值得注意的是,该基准测试揭示了一个熟悉的弱点:当任务完全以文本形式呈现时,模型表现较好;一旦涉及支持性文档、图表或复杂数据集,AI 的性能明显下降。GPT-Rosalind 在纯文本任务中的通过率为 45.1%,但面对包含图像、人工制品或 URL 的任务时,通过率骤降至 28.1%。
为什么重要
这一结果对 AI 在专业科研领域的应用具有警示意义。尽管 OpenAI 强调大模型在科学沟通、证据综合和研究成果转译方面变得越来越有能力,但 LifeSciBench 明确表明,目前的 AI 远未达到自主科学家的水平。它在处理多模态、非结构化、高信息密度的真实科研数据时存在明显短板。这对于 AI 行业的竞争格局而言,意味着当前主流的文本训练和推理方式在专业垂直领域仍存在瓶颈。无论是 OpenAI 的闭源模型还是开源替代方案,都需要在跨模态处理、长上下文理解和科学推理能力上做出实质性突破,而非仅依赖参数规模的堆叠。
对用户/开发者/创作者的影响
对于生命科学领域的研究人员和企业而言,这一基准提供了一份务实的参考清单。AI 工具目前可以协助信息筛选、文献摘要和结果翻译,但无法替代科学家在实验设计、数据分析中的专业判断和批判性思维。对于开发者来说,在将大模型 API 集成到科研工作流时,需注意当前模型在处理非文本数据(如图表、实验记录图片)时的性能衰减,不应过度依赖单一模型的输出结果。对于 AI 应用产品的设计者,这意味着构建科研辅助工具时应采用人机协作模式,将 AI 定位为效率增强工具而非决策主体。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,OpenAI 是否会对 GPT-Rosalind 或其后续模型进行针对性训练以提升 LifeSciBench 得分,这将直接影响其他大模型厂商(如 Google DeepMind、Anthropic)在科学推理能力上的技术路线选择。其次,LifeSciBench 的数据集和评估方法是否会开源,从而推动更多科研机构利用该基准测试不同模型的可靠性。最后,如果模型表现持续欠佳,可能减缓生命科学领域企业对 AI 自动化科研流程的采购意愿,转而优先投资于更可控的辅助型工具。


