《AMOGEL:多组学与先验知识融合,精准解析癌症亚型的新突破》

《BMC Bioinformatics》:Amogel: a multi-omics classification framework using associative graph neural networks with prior knowledge for biomarker identification

【字体: 时间:2025年03月29日 来源:BMC Bioinformatics 2.9

编辑推荐:

  在癌症研究中,现有研究对图神经网络(GNN)非线性学习潜力利用不足,且整合高通量多组学数据与先验知识的能力欠缺。研究人员开展了基于关联图神经网络和关联规则挖掘(ARM)的多组学分类框架研究。结果显示,AMOGEL 在分类准确性等指标上优于现有模型,为癌症亚型分类提供了新方法

  ** 在现代社会,癌症是导致死亡的主要原因之一。癌症的异质性使得准确识别癌症亚型成为开发有效治疗方案的关键。随着高通量技术的发展,多组学数据的产生为癌症研究带来了新机遇,但也面临着诸多挑战。例如,组学数据的高维性易导致模型过拟合,传统的融合方法无法充分考虑各数据类型对分类结果的不同贡献,且现有基于先验知识的基因图模型依赖于知识的完整性,在生物标志物发现方面也存在不足。
为解决这些问题,莫纳什大学马来西亚分校(School of Information Technology, Monash University Malaysia)的研究人员开展了一项关于多组学分类框架的研究。他们提出了一种名为关联多组学图嵌入学习(AMOGEL)的模型,通过将 GNN 与 ARM 相结合,有效整合多组学数据集和先验知识。研究结果表明,AMOGEL 在乳腺癌浸润性癌(BRCA)和泛肾癌(KIPAN)数据集的分类准确性、F1 评分和 AUC 评分等方面均优于当前的先进模型。这一研究成果发表在《BMC Bioinformatics》上,为癌症亚型分类和生物标志物识别提供了新的有力工具,有助于推动个性化癌症治疗的发展。

研究人员在开展研究时,用到了以下几个主要关键技术方法:首先,从 TCGAbiolink 和 Broad GDAC Firehouse 获取 BRCA 和 KIPAN 数据集,包括 miRNA 表达、mRNA 表达和 DNA 甲基化数据,并从相关数据库获取蛋白质 - 蛋白质相互作用(PPI)、KEGG 通路和基因本体(GO)等先验知识数据;其次,运用关联规则挖掘(ARM)技术挖掘组学数据间关系,构建信息图;然后,采用图神经网络(GNN)进行图特征学习;最后,结合全局特征学习和分类算法实现癌症亚型分类和基因排名。

研究结果如下:

  1. 实验设置:将数据集按 7:3 比例划分为训练集和测试集,重复五次随机分割采样,使用 Python 3.9.18 和 PyTorch 框架,在特定配置的本地机器上进行实验,以准确性、宏观 F1 评分和宏观 AUROC 为评估指标。
  2. 性能比较和分析:将 AMOGEL 与传统模型(如 k - 最近邻分类器(KNN)、支持向量机(SVM)、朴素贝叶斯(NB))、前馈深度神经网络模型(DNN)以及前沿的 GNN 模型(MOGONET、MOGLAM)进行比较。结果显示,AMOGEL 在 BRCA 和 KIPAN 数据集上的各项指标均优于其他模型,尤其在 BRCA 数据集上准确性和 F1 评分提升显著。与 MPK - GNN 模型相比,AMOGEL 在 BRCA 数据集上的准确性提高了 10.4%。
  3. 消融研究:对 AMOGEL 的 ARM 特征选择、图特征学习和全局特征学习模块进行消融研究。结果表明,ARM 技术作为早期融合策略有效,能挖掘组学间关系并提取相关特征;整合先验知识可提高模型性能;不同模块的组合对模型性能有显著影响,AMOGEL 的整体架构设计优势明显。
  4. 生物标志物发现和解释:通过两层 GAT 卷积学习边的注意力分数,筛选出候选基因生物标志物。对 BRCA 和 KIPAN 数据集的前 10 名基因分析发现,部分已知基因与癌症密切相关,如 BRCA 中的 FOXC1、ESR1 等,KIPAN 中的 miR - 126、VEGFA 等;部分基因虽研究较少但排名靠前,有进一步研究价值。通过与 DAVID 数据库比较及外部数据集验证,证实了 AMOGEL 筛选生物标志物的可靠性和有效性。

研究结论和讨论部分指出,AMOGEL 模型有效整合了多组学数据和先验生物学知识,通过 ARM 进行早期融合构建综合多组学图,引入多维边增强复杂生物相互作用的表示,利用基因排名技术提高模型可解释性并发现生物标志物。该模型在癌症亚型分类准确性、F1 评分和 AUROC 方面表现优异,且筛选出的生物标志物在相关癌症中具有显著富集。尽管模型性能受超参数调整影响,部分生物标志物因数据集限制无法测试,但 AMOGEL 仍为癌症研究提供了一个强大的框架,有助于推动更有效的个性化治疗策略的发展。未来研究可聚焦于自动超参数调整方法和优化 ARM 算法,同时探索其在其他癌症亚型中的应用 **

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号