Science|TranscriptFormer:跨越 15 亿年进化的生成式细胞图谱

Science|TranscriptFormer:跨越 15 亿年进化的生成式细胞图谱

Science|TranscriptFormer:跨越 15 亿年进化的生成式细胞图谱

一句话看懂:2026年5月7日,Biohub、斯坦福大学与Chan Zuckerberg Initiative联合在《Science》发表论文,提出生成式单细胞基础模型TranscriptFormer。该模型利用12个物种、1.12亿个细胞的转录组数据训练(覆盖约15.3亿年进化跨度),能够跨物种零样本预测细胞类型、疾病状态及基因调控关系,被视为“可交互的细胞知识模型”。

事件核心:发生了什么

研究人员发布了TranscriptFormer模型家族,包含三个版本:覆盖12物种(脊椎动物、无脊椎动物、真菌和原生生物)的TF-Metazoa、聚焦人类及4种模式生物的TF-Exemplar,以及仅基于人类5700万细胞训练的TF-Sapiens。与传统方法依赖同源基因集不同,TranscriptFormer通过引入ESM-2蛋白语言模型的嵌入,将不同物种基因映射到统一空间,并以自回归方式按序预测细胞中每个基因及其表达水平(即“细胞句子”)。在测试中,模型对进化距离达6.85亿年的石珊瑚细胞类型分类F1分数保持稳健;在跨物种迁移任务(如精子发生、免疫应答)中,表现显著优于UCE和ESM2-CE基线;在SARS-CoV-2感染状态预测和药物扰动响应分类中,TF-Sapiens取得最高AUC。

为什么重要

这项工作展示了基础生物学领域中生成式AI的关键突破。传统单细胞数据整合方法在远缘物种间因共享基因不足而失效,TranscriptFormer则通过学习基因与表达水平的联合概率分布,实现了对“从未见过”物种和疾病状态的泛化表征。这意味着生物学大模型不再局限于人类数据,而是能跨进化尺度捕捉保守的基因表达程序与技术路径。对于开发者和研究人员,它提供了三个关键认知:配置系统发育多样性数据可显著增强模型的跨物种推广能力;生成式预训练(而非仅对比学习)让模型具备“虚拟仪器”属性,能用提示语言直接预测转录因子靶标或模拟细胞响应。

对用户/开发者/创作者的影响

目前公开信息显示,TranscriptFormer为生物信息学工具开发、疾病研究与药物发现场景构建了新范式。对于AI开发者,模型输出包含上下文化基因嵌入(CGE)和条件表达概率,可被直接集成到下游分析流程(如细胞类型注释API、靶点预测匹配系统),而无需针对每个任务微调。对于生物医药领域的创作者,模型揭示的跨物种基因调控关系图谱将服务于进化生物学教育和科学可视化内容生产。对计算平台而言,1.12亿细胞训练数据的处理规模提示,要复现或微调该级别基础模型,前沿算力与高吞吐存储仍是刚性门槛。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1)模型开放可用性:项目是否提供可交互的在线工具或模型权重,将直接影响学术界和中小生物科技企业的采用速度。2)扩展物种覆盖:目前涉及12个物种,未来能否延伸到植物、微生物乃至病毒,决定该体系化模型的生物之树覆盖完整度。3)实际生产验证:CellxGene等现有资源数据库是否与TranscriptFormer形成数据流闭环,以及FDA等监管机构对“基于模型的细胞状态预测”的认可路径,将是商业化落地的关键变量。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 4697

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注