Nat. Mach. Intell. | 湖南大学计算机学院曾湘祥、隆平学院于峰、生物学院罗宵团队提出 DNA 基础大模型

Nat. Mach. Intell. | 湖南大学计算机学院曾湘祥、隆平学院于峰、生物学院罗宵团队提出 DNA 基础大模型

Nat. Mach. Intell. | 湖南大学计算机学院曾湘祥、隆平学院于峰、生物学院罗宵团队提出 DNA 基础大模型

一句话看懂:湖南大学团队在《Nature Machine Intelligence》上发布DNA基础模型CrossDNA,它不再把DNA当作单行文本来读,而是显式建模双链之间的动态交互,在调控元件分类等任务上以40万参数规模超越了更大模型的表现。

事件核心:发生了什么

湖南大学计算机学院曾湘祥教授、隆平农学院于峰教授、生物学院罗宵教授等合作团队,在期刊《Nature Machine Intelligence》上发表论文,提出DNA基础大模型CrossDNA。该模型采用双分支语言模型结构,两个独立分支分别处理正向链和反向互补链,并通过Cross-view机制让分支交替看到双链不同视图,配合TokenBridge模块和门控融合进行跨链信息交换。在8项调控元件分类任务中,仅408K参数的CrossDNA取得平均准确率88.2%,在小鼠增强子、非TATA启动子等5项任务上排名第一。在Nucleotide Transformer基准集的36个子任务中,有33项达到第一或第二,且正反向链预测分数差异低于0.015。

为什么重要

现有DNA基础模型多数将序列视为单向或双向文本,通过数据增强或参数共享来间接处理反向互补一致性。CrossDNA的核心突破在于把DNA双链之间的物理耦合与功能协同关系显式融入到模型训练过程中,而不是仅在输入或输出阶段做补偿。这提示了基因组基础模型的一条新路线:理解生物结构先验可能和单纯堆参数同等重要。当一个40万参数模型在多个任务上胜过数百万乃至千万参数模型时,说明让模型贴近分子本身的逻辑能带来更高效的特征学习。

对用户/开发者/创作者的影响

对于从事基因组分析、调控元件识别或非编码变异解释的研究者,CrossDNA提供了一个更贴近生物学真实结构的预训练模型。其零样本嵌入评估在42个真实分类任务上优于JanusDNA、DNABERT-2、HyenaDNA等模型,说明它可以直接作为特征提取器用于下游任务。对于需要跨物种泛化的场景,论文在小鼠和果蝇数据集上的测试显示其具有竞争力的泛化能力。此外,CrossDNA的模型架构和训练策略为开发更轻量的基因组基础模型提供了可复用的设计思路。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

目前公开信息显示,CrossDNA的早期预训练主要基于人类参考基因组,未来能否通过引入群体遗传变异和多物种数据来提升对个体水平基因表达差异的预测能力值得关注。此外,该模型作为一个开源研究工具,能否被主流基因组分析流程采纳、形成开发者生态,以及是否有团队在此架构基础上推出更大参数的版本,都是后续观察点。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 5818

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注