8B 模型做生物实验：实验步骤顺序不乱、剂量无幻觉｜ICLR 2026

一句话看懂：上海人工智能实验室、复旦大学、上海交通大学团队提出 Thoth 模型，一个仅 8B 参数的模型能生成可执行、无剂量幻觉的生物实验方案。该工作被 ICLR 2026 接收，核心创新在于用结构化推理替代传统文本生成，使 AI 生成的不再是“看起来像”的步骤，而是顺序正确、参数精准、可复现的 protocol。

事件核心：发生了什么

团队构建了包含约 12K 条高质量实验方案的数据集 SciRecipe，覆盖 27 个生物学子领域。在此基础上，提出 Sketch-and-Fill 推理范式：模型先以think分析任务目标，再生成包含 action、objects、parameters 三个核心字段的key（实验骨架），最后将骨架填充为自然语言orc（可读步骤）。关键要求是 key 与 orc 之间一一对应，避免关键信息丢失。

针对评估难题，团队设计了 SCORE（Structured COmponent-based REward）奖励机制，从步骤粒度、动作顺序、语义保真三个维度衡量 protocol 是否可执行。配合 Knowledge-to-Action 三阶段训练（预训练→监督微调→强化学习），Thoth 以 Qwen3-8B 为基座，在 SciRecipe-Eval 上平均分超过 ChatGPT-4o 约 3.69%，超越了 DeepSeek-V3 等大模型，尤其在步骤对齐、逻辑顺序和动作保真三项指标上有明显优势。剂量缩放案例显示，基座模型将 TEMED 剂量错误写成 5µL，而 Thoth 能正确给出 0.5µL。

为什么重要

当前大模型在回答生物医学问题时表现不错，但生成“能直接做实验”的方案时，常出现步骤缺失、顺序混乱、参数幻觉等致命问题。传统文本评估指标（如 BLEU、ROUGE）只看词面相似度，无法判断方案是否可执行；LLM-as-a-Judge 代价高且不稳定。Thoth 的突破在于将protocol 生成从“自由文本”推进到“结构化科学推理”，让模型不仅“会写”，更能“照着做”。这对生命科学领域意义重大：AI 有机会从文献问答工具，走向实验复现助手、protocol 规划助手，甚至成为自动化实验系统的核心推理模块。更重要的是，这项工作证明了 8B 参数的小模型通过精心设计的推理结构和奖励机制，可以在科学推理任务上超越大模型，为低成本 AI 科学助手树立了新标杆。

对用户/开发者/创作者的影响

生物研究人员：可直接使用 Thoth 生成的 protocol 作为实验起点，或进行剂量缩放、步骤排序、安全提醒等辅助工作，减少因文献步骤混乱或参数错误导致的实验失败。
AI 开发者：Sketch-and-Fill 范式和 SCORE 奖励机制可借鉴到其他需要结构化的科学任务（如化学合成、物理实验设计）中。代码已开源（GitHub: InternScience/Thoth），模型 API 也已上线。
科学出版与教育：可自动化校验投稿 protocol 的完整性和可复现性，或辅助教学过程中生成标准实验步骤。

值得关注的后续

实际落地验证：目前 Thoth 对实验方案的可执行性仍基于自动评估，能否真正在湿实验中复现、减少人工修正成本，是下一步关键。需关注是否有生物实验室跟进验证或发布误差报告。
领域扩展：方法能否有效迁移到其他需要严格步骤控制的科学领域（如化学合成、药物封装）？团队若发布跨领域数据集或迁移实验，将是重要信号。
小模型路线竞争：8B 参数模型绕过大量算力依赖后，是否会加速科学 AI 助手的普及？其他团队（如 DeepMind、BioBERT 系）是否跟进类似结构化推理范式？