-
生物通官微
陪你抓住生命科技
跳动的脉搏
scMalignantFinder:基于癌症特征的单细胞与空间转录组恶性细胞智能识别新工具
《Communications Biology》:scMalignantFinder distinguishes malignant cells in single-cell and spatial transcriptomics by leveraging cancer signatures
【字体: 大 中 小 】 时间:2025年03月28日 来源:Communications Biology 5.2
编辑推荐:
单细胞RNA测序(scRNA-seq)为解析肿瘤异质性提供了强大工具,但恶性细胞的精准鉴定仍是重大挑战。中国科学院研究人员开发了机器学习工具scMalignantFinder,通过整合9个泛癌特征基因集校准的40余万细胞训练数据,采用差异表达基因(DEGs)联合策略构建分类模型。该工具在13个测试数据集上平均准确率达0.824,显著优于现有方法,并能追踪癌变动态过程及识别空间转录组(ST)恶性区域。相关成果发表于《Communications Biology》,为肿瘤研究提供了高效可靠的恶性细胞鉴定新范式。
肿瘤就像一座复杂的"细胞城市",其中恶性细胞如同伪装的特工,混迹在正常细胞中难以辨别。虽然单细胞RNA测序(scRNA-seq)技术让我们能够"监听"每个细胞的基因表达"对话",但如何准确识别这些"特工"仍是肿瘤研究领域的重大挑战。现有方法如CNV(拷贝数变异)推断依赖基因组结构变异,而SNV(单核苷酸变异)检测又受限于测序技术,更棘手的是肿瘤存在巨大的转录组异质性——就像特工们使用不同的"暗号",使得基于单一特征的识别方法频频失误。
中国科学院的研究团队在《Communications Biology》发表了突破性研究,他们开发的scMalignantFinder工具创新性地采用"数据驱动+知识引导"双轨策略。通过整合5个癌种40余万细胞的scRNA-seq数据,用9个经TCGA验证的泛癌特征基因集校准训练集,最终构建出基于2707个DEGs的机器学习模型。这个"智能侦探"不仅能准确识别单细胞数据中的恶性上皮细胞,还能追踪癌变动态过程,甚至在空间转录组(ST)数据中定位恶性区域。
关键技术方法包括:1)收集5个癌种(scRNA-seq)数据集和TCGA泛癌数据构建训练集;2)采用9个癌症特征基因集(8个上调1个下调)校准恶性细胞标签;3)联合各数据集DEGs(1656上调和1051下调)构建逻辑回归模型;4)在13个测试集(含198个癌细胞系和11个患者数据集)进行验证;5)整合恶性概率、特征活性和病理图像评分进行ST数据分析。
"性能验证"部分显示,scMalignantFinder在癌细胞系测试中灵敏度达1.000,特异性0.786,显著优于PreCanCell等现有工具。在11个患者数据集上平均平衡准确率0.732,其中6个癌种表现最佳。值得注意的是,被模型"误判"的细胞实际上表现出与恶性细胞相似的CNV模式和特征基因活性,暗示这些可能是处于转化过渡态的细胞。
"癌变过程解析"应用证实,该工具能捕捉结直肠癌从正常黏膜→息肉→肿瘤的恶性细胞比例递增趋势(0%→显著增加→峰值),在胃癌进展(NAG→CAG→IM→EGC)中也呈现类似规律。特征分析发现,跨癌种保守的DEGs(占28%)对模型贡献最大,这些基因显著富集于血管生成等癌症特征通路,且与TCGA患者不良预后相关。
在"空间转录组应用"中,研究者创新性地整合恶性概率、特征活性和病理评分,在8个ST数据集实现平均0.800平衡准确率。预测的恶性区域显示更高的CNV水平(如乳腺癌1q/8q增益)和肿瘤特征活性,且与病理注释高度一致。与Cottrazm等专用ST工具相比,scMalignantFinder无需重新训练即可实现可比性能。
这项研究通过三大创新解决了恶性细胞鉴定难题:首创"癌种特征校准"训练集构建策略,突破性地联合共享与特异DEGs作为特征,实现从单细胞到空间尺度的多维度应用。特别值得注意的是,模型识别的关键DEGs显著富集于已批准药物靶点(OR=1.9),为泛癌治疗靶点发现提供了新线索。未来通过扩展训练癌种和整合多组学数据,scMalignantFinder有望成为肿瘤基础研究与临床应用的"标准分析工具",为揭示癌变机制和开发精准疗法开辟新途径。
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号