基于可解释多组学生物学特征的深度学习模型在泛癌分类中实现组织起源、分期及亚型的精准识别
《Scientific Reports》:Biologically explainable multi-omics feature demonstrates greater learning potential by identifying tissue of origin, stages, and subtypes for pan-cancer classification
【字体:
大
中
小
】
时间:2025年11月19日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对癌症转移时原发灶难以确定、传统诊断方法存在局限性的临床挑战,开发了一种结合基因集富集分析和Cox回归的混合特征选择方法,构建了基于自编码器和人工神经网络(ANN)的深度学习框架。该模型整合转录组、甲基化组和microRNA多组学数据,在30种癌症的7632个样本中实现组织起源分类准确率达96.67%,分期和亚型识别准确率分别达83.33-93.64%和87.31-94.0%,为精准医疗提供了可解释的AI决策支持。
癌症作为一种细胞生长失控的复杂疾病,其侵袭性和转移特性使得准确诊断变得尤为困难。当癌细胞从原发部位扩散到其他器官时,传统诊断方法往往难以确定肿瘤的组织起源,这为癌症检测增加了另一层复杂性。同时,准确判断癌症的分期和分子亚型对制定个性化治疗方案至关重要。在世界卫生组织(WHO)和国际抗癌联盟(UICC)建立的癌症分类标准下,任何对起源、分期或亚型的误判都可能导致治疗失败,进而增加癌症相关死亡率。
目前主要的癌症诊断技术依赖影像学和组织学分析,但由于肿瘤异质性的存在,这些方法在确定组织起源方面常常力不从心。更复杂的是,转移性癌细胞会从原发部位迁移到远端器官,使得诊断更加困难。不同癌症类型的转移模式各异,例如前列腺癌常转移至骨骼,而胰腺癌和葡萄膜黑色素瘤则倾向于转移到肝脏。结直肠癌的转移则呈现出器官特异性定植的序贯模式,通常首先转移到肝脏,然后是肺和脑部。因此,根据原发部位和转移扩散情况,预后会有显著差异。
近年来,高通量组学技术和人工智能(AI)的进步为破解癌症特有的分子模式提供了新机遇,支持了创新诊断策略的开发。然而,大多数AI方法仅依赖单一组学数据(如基因表达),可能无法充分学习癌症特异性模式来开发诊断模型。此外,生物可解释性在AI驱动模型开发中至关重要,将生物学相关特征纳入模型可以增强其可解释性,并促进向临床应用的转化。
在这项发表于《Scientific Reports》的研究中,印度国立技术学院瓦朗加尔分校的研究团队开发了一个生物学信息驱动的深度学习框架,能够同时分类癌症的组织起源、分期和亚型。研究人员分析了来自30种不同人类组织的癌症数据,通过基因集富集和Cox回归分析筛选生物学和临床相关特征,利用自编码器整合基因表达、miRNA和甲基化谱,最终通过人工神经网络进行分类。
研究团队从UCSC Xena数据库获取了30种癌症的基因表达、miRNA和甲基化数据,共包含7632个样本。通过基因集富集分析筛选参与分子功能、生物过程和细胞组分的基因,再经单变量Cox回归分析识别与患者生存相关的预后基因。利用mirCarta数据库和转录起始位点信息,将miRNA和甲基化特征与预后基因进行生物学关联。采用自编码器进行早期整合和降维,提取癌症相关多组学潜变量(CMLV),最后使用人工神经网络进行分类模型构建。
研究人员设计了结合基因集富集分析和Cox回归的混合特征选择策略,从mRNA、miRNA和甲基化三种数据集中筛选癌症相关特征。通过自编码器(CNC-AE)将三种组学数据整合并降维到潜变量空间,重构损失(MSE)介于0.03-0.29之间,表明自编码器成功学习了癌症特异性模式。这些潜变量被命名为癌症相关多组学潜变量(CMLV),用于后续深度学习模型构建。
癌症相关多组学潜变量(CMLV)展现出比预处理数据更优的学习潜力
通过t-SNE聚类分析发现,基于CMLV的30种癌症形成了明显分离的簇群,而单一组学数据(基因表达、miRNA或甲基化)则显示出不同癌症类型间的混合聚类现象。例如,在基因表达数据中,子宫癌肉瘤(UCS)、胆管癌(CHOL)、头颈癌(HNSC)和肾上腺皮质癌(ACC)与其他癌症类型相互混合;在miRNA数据中,胸腺瘤(THYM)和前列腺癌(PRAD)出现混合;在甲基化数据中,胆管癌(CHOL)与子宫癌肉瘤(UCS)、宫颈癌(CESC)和睾丸癌(TGCT)混合。与预处理多组学数据相比,CMLV在区分癌症类型方面表现出更优越的性能。
深度学习模型利用癌症相关多组学潜变量高精度分类癌症组织起源
基于CMLV构建的人工神经网络模型在测试数据集上表现出极高的预测准确性,准确率和精确度分别达到99.99%和99.96%。马修斯相关系数(MCC)和几何平均数(GM)得分也分别高达0.99和99.98。使用外部数据集验证时,模型对肝癌和甲状腺癌的分类准确率达到96.67%(±0.07),表明模型具有良好的泛化能力。
基于癌症相关多组学潜变量的深度学习模型有效分类癌症分期和亚型
研究还对10种癌症进行了早期和晚期的分期分类,准确率在训练数据和测试数据上分别达到87.02-96.30%和83.33-93.64%。在外部数据集上,肝癌和甲状腺癌的分期分类准确率分别为83.79%和87.02%。在亚型分类方面,模型对结肠癌、直肠癌和甲状腺癌的亚型识别准确率分别达到90.77%、94.00%和87.31%。与基于单一组学数据或预处理多组学数据的模型相比,CMLV在分期分类方面表现出明显优势。
本研究首次实现了同时分类癌症组织起源、分期和亚型的深度学习框架,通过整合三种组学数据、筛选生物学相关特征以及先进的数据整合策略,实现了优越的分类准确性。与现有方法相比,该框架在多个评估指标上均表现出竞争优势。研究证明,整合癌症相关特征有助于从基因表达、miRNA和甲基化数据中发现肿瘤特异性模式,为开发实用诊断工具奠定了基础。
随着多组学数据分析的多模态学习方法在癌症诊断中的应用日益普及,这种AI分类器有望帮助医疗从业者更精确地确定最有效的治疗方案。特别是在组织学无法提供明确诊断的情况下,能够可靠确定原发部位、分期和亚型的AI工具将极大促进个性化药物治疗的开展。随着数据资源的丰富和AI工具的进步,重新定义当前治疗方法具有巨大潜力。基于AI的方法实施将最大限度地减少因治疗不当而产生的不良后果,并优化治疗效果。
该研究的创新之处在于将生物学可解释性纳入特征选择过程,增强了模型的临床可靠性。未来,多组学数据整合与人工智能的深度融合有望推动癌症诊断进入新的精准医疗时代,为患者提供更加个性化和有效的治疗方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号