8B 模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026

8B 模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026

8B 模型做生物实验:实验步骤顺序不乱、剂量无幻觉|ICLR 2026

一句话看懂:上海人工智能实验室、复旦大学、上海交通大学团队提出 Thoth 模型,一个仅 8B 参数的模型能生成可执行、无剂量幻觉的生物实验方案。该工作被 ICLR 2026 接收,核心创新在于用结构化推理替代传统文本生成,使 AI 生成的不再是“看起来像”的步骤,而是顺序正确、参数精准、可复现的 protocol。

事件核心:发生了什么

团队构建了包含约 12K 条高质量实验方案的数据集 SciRecipe,覆盖 27 个生物学子领域。在此基础上,提出 Sketch-and-Fill 推理范式:模型先以think分析任务目标,再生成包含 action、objects、parameters 三个核心字段的key(实验骨架),最后将骨架填充为自然语言orc(可读步骤)。关键要求是 key 与 orc 之间一一对应,避免关键信息丢失。

针对评估难题,团队设计了 SCORE(Structured COmponent-based REward)奖励机制,从步骤粒度、动作顺序、语义保真三个维度衡量 protocol 是否可执行。配合 Knowledge-to-Action 三阶段训练(预训练→监督微调→强化学习),Thoth 以 Qwen3-8B 为基座,在 SciRecipe-Eval 上平均分超过 ChatGPT-4o 约 3.69%,超越了 DeepSeek-V3 等大模型,尤其在步骤对齐、逻辑顺序和动作保真三项指标上有明显优势。剂量缩放案例显示,基座模型将 TEMED 剂量错误写成 5µL,而 Thoth 能正确给出 0.5µL。

为什么重要

当前大模型在回答生物医学问题时表现不错,但生成“能直接做实验”的方案时,常出现步骤缺失、顺序混乱、参数幻觉等致命问题。传统文本评估指标(如 BLEU、ROUGE)只看词面相似度,无法判断方案是否可执行;LLM-as-a-Judge 代价高且不稳定。Thoth 的突破在于将protocol 生成从“自由文本”推进到“结构化科学推理”,让模型不仅“会写”,更能“照着做”。这对生命科学领域意义重大:AI 有机会从文献问答工具,走向实验复现助手、protocol 规划助手,甚至成为自动化实验系统的核心推理模块。更重要的是,这项工作证明了 8B 参数的小模型通过精心设计的推理结构和奖励机制,可以在科学推理任务上超越大模型,为低成本 AI 科学助手树立了新标杆。

对用户/开发者/创作者的影响

  • 生物研究人员:可直接使用 Thoth 生成的 protocol 作为实验起点,或进行剂量缩放、步骤排序、安全提醒等辅助工作,减少因文献步骤混乱或参数错误导致的实验失败。
  • AI 开发者:Sketch-and-Fill 范式和 SCORE 奖励机制可借鉴到其他需要结构化的科学任务(如化学合成、物理实验设计)中。代码已开源(GitHub: InternScience/Thoth),模型 API 也已上线。
  • 科学出版与教育:可自动化校验投稿 protocol 的完整性和可复现性,或辅助教学过程中生成标准实验步骤。

值得关注的后续

  1. 实际落地验证:目前 Thoth 对实验方案的可执行性仍基于自动评估,能否真正在湿实验中复现、减少人工修正成本,是下一步关键。需关注是否有生物实验室跟进验证或发布误差报告。
  2. 领域扩展:方法能否有效迁移到其他需要严格步骤控制的科学领域(如化学合成、药物封装)?团队若发布跨领域数据集或迁移实验,将是重要信号。
  3. 小模型路线竞争:8B 参数模型绕过大量算力依赖后,是否会加速科学 AI 助手的普及?其他团队(如 DeepMind、BioBERT 系)是否跟进类似结构化推理范式?
GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 2197

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注