Nat. Commun. | T2Pdecoder 实现基于转录组数据的蛋白质中心分析

研究人员开发了深度学习框架 T2Pdecoder,能从 RNA 测序数据直接预测 5738 种蛋白质的丰度,在胶质瘤和乳腺癌研究中展现出比传统 RNA 分析更接近真实蛋白质组的功能解析能力。

Nat. Commun. | T2Pdecoder 实现基于转录组数据的蛋白质中心分析

一句话看懂:研究人员开发了深度学习框架 T2Pdecoder,能从 RNA 测序数据直接预测 5738 种蛋白质的丰度,在胶质瘤和乳腺癌研究中展现出比传统 RNA 分析更接近真实蛋白质组的功能解析能力。

事件核心:发生了什么

发表在《自然·通讯》上的研究介绍了 T2Pdecoder,一个整合多组学信息的生成式 AI 框架。该模型利用迁移学习,先在 1351 个泛癌种 RNA-蛋白质配对样本上训练 CLIP 跨模态嵌入空间,再结合 1422 个胶质瘤蛋白质组样本进行微调。最终,T2Pdecoder 能从 Bulk RNA 或单细胞 RNA 测序数据中预测 5738 种蛋白质的表达水平,并可直接用于通路富集、肿瘤亚型识别和生存分层分析。在多个胶质瘤和乳腺癌队列中,其预测谱比原始 RNA 表达更准确,且在泛化能力上优于 Lasso 回归、随机森林及 11 种现有算法。

为什么重要

蛋白质是细胞功能的直接执行者,但大规模蛋白质组学检测成本高、覆盖有限,尤其像 IDH 突变型胶质瘤等罕见亚型的数据极度匮乏。T2Pdecoder 的核心突破在于:它通过共享潜在空间学习 RNA 与蛋白质之间复杂的多对多映射关系,而非简单的一一对应;同时,模型支持的蛋白质预测规模远超现有方法(仅几十至数百种)。这意味着,研究者可以利用海量已有的转录组数据,低成本地开展蛋白质中心分析,揭示 RNA 层面丢失的关键功能信息,例如氧化磷酸化代谢重编程和 DDX5 增殖信号。

对用户/开发者/创作者的影响

对于肿瘤基础研究和临床转化团队,T2Pdecoder 提供了一种无需额外蛋白质组实验、即可从现有 RNA 数据中提取蛋白质功能特征的分析工具。模型已公开可应用于 Bulk 和单细胞数据,并能生成具有独立预后价值的蛋白质分型体系。对于 AI 开发者,该工作展示了跨模态迁移学习在组学预测中的有效范式——通过 CLIP+变分自编码器架构解决数据稀少和规模限制问题。不过,目前模型主要在胶质瘤和乳腺癌中验证,推广到正常组织或其他癌种尚需更多配对数据积累。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,项目是否开放代码与模型权重,这将直接决定生物信息学开发者能否快速复现和适配新数据集。第二,研究团队提出未来可整合 DNA 甲基化、空间转录组和病理图像等模态,关注该平台是否如期扩展为多组学统一解析工具。第三,在药物靶点发现场景中,T2Pdecoder 预测的蛋白质丰度是否能够辅助筛选候选标志物或治疗靶点,目前尚需独立临床队列验证。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 8287

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注