通过迁移学习对全癌基因组中背景突变率进行元素特异性估计:精准肿瘤学的新突破

《npj Precision Oncology》:Element-specific estimation of background mutation rates in whole cancer genomes through transfer learning

【字体: 时间:2025年03月30日 来源:npj Precision Oncology 6.8

编辑推荐:

  在癌症驱动基因发现中,准确估计背景突变率(BMR)至关重要。研究人员开展了 eMET 模型相关研究,该模型结合基因间和元件特异性信息提升 BMR 估计准确性,在多种癌症队列中表现优异,有助于增强驱动基因发现,推动精准肿瘤学发展。

  在癌症研究的领域中,遗传突变如同隐藏在黑暗中的 “幕后黑手”,是癌症发生发展的主要原因。体细胞突变会随着时间不断积累,这些突变有的是源于正常的背景突变,有的则是受到自然选择的影响。不同的基因组区域,其背景突变率(BMR)差异很大,就像不同地区的 “突变气候” 各不相同。这种差异受到多种因素的调控,比如复制时间、组蛋白修饰、转录活性等。找到那些受到正选择的突变区域,也就是癌症驱动基因,对于理解癌症的发展进程、开发精准的靶向治疗药物至关重要。然而,准确地模拟 BMR,尤其是在非编码区域,是一项极具挑战性的任务。因为癌症的高度异质性,使得 BMR 的建模变得复杂,这就如同在迷雾中寻找宝藏,困难重重。此前,虽然已经有很多方法被开发出来用于识别癌症驱动基因,但在 BMR 的估计方面,始终没有一种理想的模型,能将基因间间隔和功能基因组元件的信息整合起来,利用全面的基因组特征进行精准估计。因此,开发更精确的 BMR 模型迫在眉睫,这不仅可以提高癌症驱动基因的识别准确性,减少假阳性结果,还可能发现新的癌症驱动基因。
为了解决这些难题,来自伊朗巴斯德研究所(Pasteur Institute of Iran)和德黑兰大学(University of Tehran)的研究人员 Farideh Bahari、Reza Ahangari Cohan 和 Hesam Montazeri 展开了深入研究。他们致力于构建一种能够精准估计 BMR 的模型,从而助力癌症驱动基因的发现,无论是在编码区域还是非编码区域。研究成果发表在《npj Precision Oncology》上,为癌症研究领域带来了新的曙光。

研究人员在本次研究中用到了多个主要关键技术方法。首先,他们从 PCAWG 项目获取了 2253 个高质量、非超突变的全癌基因组的体细胞突变数据作为样本队列。然后,利用多种机器学习算法,如随机森林(RF)、极端梯度提升(XGBoost)和神经网络等,对 BMR 进行建模。此外,还运用了主成分分析(PCA)和自动编码器(AE)进行降维分析,探究不同特征对 BMR 预测的重要性。

研究结果如下:

  • XGBoost 在预测 BMR 方面表现出色:通过比较不同固定大小(1M、100k、50k 和 10k)和可变大小的基因间间隔,研究发现基于树的方法(RF 和 XGBoost)在预测 BMR 上优于神经网络。其中,XGBoost 在基因间验证集上表现最佳,平均相关性达到 0.741。并且,训练 XGBoost 模型时,使用至少有一个突变的可变大小基因间间隔,能显著提高模型性能。此外,样本大小对模型性能有影响,但 XGBoost 在不同样本大小下始终表现出色。
  • eMET 提升了 BMR 预测性能:eMET 模型利用基因间和元件特异性信息,在泛癌分析中,其性能优于基因间 XGBoost 模型和元件特异性 XGBoost 模型的自训练聚合。无论是合并变异还是单独建模,eMET 在各种癌症类型中预测 BMR 的表现都优于基因间 XGBoost。而且,在原始数据和低维空间中,eMET 在预测 BMR 方面都展现出良好的性能。
  • eMET 在癌症特异性 BMR 估计中表现优异:与 ActiveDriverWGS、DriverPower、Dig 等工具以及自定义的局部突变率估计方法相比,eMET 在几乎所有的成对比较中都表现更优。在癌症特异性分析中,使用全部 1372 个(表观)基因组特征时,eMET 的基础基因间模型预测 BMR 的效果更好。
  • eMET 有助于癌症驱动基因的发现:利用基于二项分布的负担测试和多重检验校正,eMET 在编码和非编码元件中都增强了癌症驱动基因的发现能力。与基因间 XGBoost 相比,eMET 在编码序列(CDS)中报告的结果更精确,真阳性率更高。在非编码元件中,eMET 在精度、召回率、F1 分数、平均精度召回率(AUPR)和曲线下面积(AUC)等指标上也表现更优。此外,将 eMET 的 BMR 估计整合到 Dig 框架中,能显著提高编码驱动基因的识别能力。
  • eMET 有助于分析特征重要性:研究发现,在基因间 XGBoost 模型中,表观遗传标记是预测 BMR 最重要的特征组。通过 eMET 进一步分析发现,在所有元件类型中,表观遗传标记都是预测 BMR 最重要的特征类别,而 DNA 可及性和核苷酸含量在剪接位点和 5’非翻译区(UTR)中也非常重要。

研究结论和讨论部分指出,本研究成功引入了 eMET 这一新颖的 BMR 预测方法。该方法利用迁移学习,先将基因间信息融入模型,再针对特定功能元件类型进行微调。研究表明,结合元件特异性信息和基因间数据,能显著提升 BMR 的估计准确性,优于仅依赖基因间信息的模型。此外,研究还对影响 BMR 预测的各种因素进行了全面分析,为后续研究奠定了坚实基础。尽管 eMET 在癌症驱动基因发现方面展现出了潜力,但该研究也存在一定局限性,如未考虑特定突变过程的突变特征和个体突变率的异质性,训练过程耗时且对计算系统要求较高等。不过,总体而言,本研究强调了整合基因间和元件特异性信息在 BMR 预测中的重要性,其在不同基因间间隔生成方法、降维、特征组分析和样本大小对 BMR 预测影响等方面的基准分析,为未来癌症基因组学的研究提供了有力支持,也为精准肿瘤学的发展开辟了新的道路,有望推动癌症研究和治疗迈向新的高度。

娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀

10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�

濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�

閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�

娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号