CanCellCap:基于多域学习的跨组织单细胞转录组癌症细胞精准识别新方法

【字体: 时间:2025年08月01日 来源:BMC Biology 4.5

编辑推荐:

  研究人员针对单细胞RNA测序(scRNA-seq)数据中肿瘤异质性导致的癌症细胞识别难题,开发了多域学习框架CanCellCap。该模型整合域对抗学习(Domain adversarial learning)和专家混合系统(MoE),在13种组织类型、23种癌症类型和7种测序平台数据中实现平均0.977的识别准确率,显著优于5种现有方法。其突破性在于首次实现跨物种、跨平台和未知癌症类型的稳健识别,为肿瘤微环境研究和临床诊断提供新工具。

  

在肿瘤研究领域,单细胞RNA测序(scRNA-seq)技术虽能揭示细胞层面的转录组异质性,但如何准确区分恶性细胞仍是重大挑战。传统方法如InferCNV依赖拷贝数变异(CNVs)分析,易受正常细胞基因组变异的干扰;而机器学习模型如ikarus又面临组织特异性表达模式带来的泛化瓶颈。更棘手的是,不同测序平台导致的基因漏检(dropout)现象进一步增加了识别难度。

厦门大学自动化系、国家健康医疗大数据研究院的Jiaxing Bai团队在《BMC Biology》发表的研究,提出了革命性的多域学习框架CanCellCap。该工作通过创新性地整合三大技术模块:1)模拟不同测序平台dropout的特征掩膜-重建策略;2)提取组织共性特征的域对抗学习模块;3)捕捉组织特异性表达的专家混合系统(MoE),首次实现了跨组织、跨平台甚至跨物种的癌症细胞精准识别。

关键技术包括:1)基于TISCH数据库收集328,230个细胞的13种组织scRNA-seq数据;2)通过随机掩膜模拟不同测序平台dropout效应;3)采用梯度反转层(GRL)实现组织无关特征提取;4)构建含组织特异性专家的MoE模块;5)在33个测试数据集(834,788细胞)和空间转录组数据中进行系统验证。

模型性能验证
在包含15种组织类型的测试集上,CanCellCap的AUROC达0.9722,显著优于第二名Cancer-Finder(0.8676)。特别在罕见癌症如颅咽管瘤(ACP)中仍保持0.9402准确率,证实其临床适用性。

跨平台泛化能力
对未参与训练的C1 Fluidigm等平台数据,识别准确率稳定在0.9121-0.956,而传统方法如CopyKAT在10X Genomics平台性能下降达15%。

生物学意义发现
通过SHAP分析鉴定的关键基因如IFI27和CXCR4与已知癌症标志物高度吻合,KEGG通路分析显示"癌症通路"和"MAPK信号通路"显著富集,为肿瘤机制研究提供新线索。

这项研究的突破性在于:1)首次实现跨组织/跨物种的端到端癌症细胞识别;2)通过特征解耦技术克服测序平台差异;3)在空间转录组中准确绘制肿瘤区域(准确率0.7989)。其开源代码和预训练模型将推动个性化医疗发展,而鉴定的SPINT2等新型标志物为靶向治疗研发指明方向。未来通过扩展跨物种训练数据,有望进一步突破现有生物医学研究的物种壁垒。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号