
一句话看懂:研究人员开发了深度学习框架 T2Pdecoder,能从 RNA 测序数据直接预测 5738 种蛋白质的丰度,在胶质瘤和乳腺癌研究中展现出比传统 RNA 分析更接近真实蛋白质组的功能解析能力。
事件核心:发生了什么
发表在《自然·通讯》上的研究介绍了 T2Pdecoder,一个整合多组学信息的生成式 AI 框架。该模型利用迁移学习,先在 1351 个泛癌种 RNA-蛋白质配对样本上训练 CLIP 跨模态嵌入空间,再结合 1422 个胶质瘤蛋白质组样本进行微调。最终,T2Pdecoder 能从 Bulk RNA 或单细胞 RNA 测序数据中预测 5738 种蛋白质的表达水平,并可直接用于通路富集、肿瘤亚型识别和生存分层分析。在多个胶质瘤和乳腺癌队列中,其预测谱比原始 RNA 表达更准确,且在泛化能力上优于 Lasso 回归、随机森林及 11 种现有算法。
为什么重要
蛋白质是细胞功能的直接执行者,但大规模蛋白质组学检测成本高、覆盖有限,尤其像 IDH 突变型胶质瘤等罕见亚型的数据极度匮乏。T2Pdecoder 的核心突破在于:它通过共享潜在空间学习 RNA 与蛋白质之间复杂的多对多映射关系,而非简单的一一对应;同时,模型支持的蛋白质预测规模远超现有方法(仅几十至数百种)。这意味着,研究者可以利用海量已有的转录组数据,低成本地开展蛋白质中心分析,揭示 RNA 层面丢失的关键功能信息,例如氧化磷酸化代谢重编程和 DDX5 增殖信号。
对用户/开发者/创作者的影响
对于肿瘤基础研究和临床转化团队,T2Pdecoder 提供了一种无需额外蛋白质组实验、即可从现有 RNA 数据中提取蛋白质功能特征的分析工具。模型已公开可应用于 Bulk 和单细胞数据,并能生成具有独立预后价值的蛋白质分型体系。对于 AI 开发者,该工作展示了跨模态迁移学习在组学预测中的有效范式——通过 CLIP+变分自编码器架构解决数据稀少和规模限制问题。不过,目前模型主要在胶质瘤和乳腺癌中验证,推广到正常组织或其他癌种尚需更多配对数据积累。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,项目是否开放代码与模型权重,这将直接决定生物信息学开发者能否快速复现和适配新数据集。第二,研究团队提出未来可整合 DNA 甲基化、空间转录组和病理图像等模态,关注该平台是否如期扩展为多组学统一解析工具。第三,在药物靶点发现场景中,T2Pdecoder 预测的蛋白质丰度是否能够辅助筛选候选标志物或治疗靶点,目前尚需独立临床队列验证。
来源:Readhub · AI


