
学术团队仅凭SFT打破大厂垄断,OpenSeeker-v2 登顶搜索智能体榜单
在大型语言模型(LLM)领域,深度搜索能力正成为顶级智能体的“杀手锏”,但长期以来,这场竞赛被拥有雄厚资源的工业巨头所主导。传统开发模式通常依赖包括预训练、继续预训练(CPT)、监督微调(SFT)和强化学习(RL)在内的资源密集型流水线。然而,一支来自学术界的团队近期发布了最新成果 OpenSeeker-v2,彻底颠覆了这一常规认知。研究发现,通过使用高质量、高难度的任务轨迹进行训练,即便是简单的监督微调(SFT)方法,也能开发出性能顶尖的搜索智能体。这不仅打破了行业垄断,更意味着前沿研发门槛被大幅降低。
轻量级SFT如何击败重资源流水线?
OpenSeeker-v2 的成功并非偶然,其团队在数据合成中提出了三大核心优化策略。首先,扩大知识图谱规模,为模型提供更丰富的探索空间;其次,显著增加工具包数量,拓展功能边界;最后,引入严格的低步数过滤机制,确保训练数据的精炼与高效。实验数据显示,采用ReAct架构、规模为30B的 OpenSeeker-v2,仅在 10,600 个数据点上进行训练,就在四项核心基准测试中展现出强大统治力:在 BrowseComp 上达到 46.0% 的准确率,在 BrowseComp-ZH 上为 58.1%,在“人类最后的考试”上为 34.6%,在 xbench 上更是高达 78.0%。这些成绩不仅刷新了纪录,还全面超越了使用重 CPT + SFT + RL 复杂流水线的工业模型,例如通义千问旗下的 DeepResearch。
对AI行业意味着什么?轻量级路线的崛起
值得关注的是,这是首次有纯学术团队在相同模型规模和架构下,仅凭SFT技术就开发出具有最先进水平(SOTA)的搜索智能体。这一发现极大地降低了前沿搜索智能体的研发门槛,也为学界和开源社区提供了一条更具参考价值的轻量化开发路径。目前,团队已正式开源 OpenSeeker-v2 的模型权重。传统上,业界普遍认为想要获得顶级性能必须依赖昂贵的强化学习或多阶段训练,而 OpenSeeker-v2 用事实证明了数据质量远比训练工程的复杂度更为关键。这将迫使大厂重新审视其效率,并可能引发一轮以数据质量为核心的“效率竞赛”。
总结与展望
OpenSeeker-v2 的成功是一次典型的“四两拨千斤”。它证明了在AI领域,技术创新与资源投入并非总成正比,巧妙的策略和对数据本质的深刻理解可以打破资源壁垒。随着该模型的全面开源,我们有理由期待,更多像这样的“轻量级”创新将被激发,推动整个行业向更高效、更开放的方向演进。


