编辑推荐:
为解决现有非负矩阵分解(NMF)技术仅能分析单个数据集,难以对比不同条件下突变特征等问题,研究人员开展了贝叶斯 NMF 方法的研究。结果表明该方法能联合分解多个数据集识别突变特征及共享模式,还能分析结直肠癌和早发性乳腺癌样本,为癌症研究提供新视角。
癌症,这个令人谈之色变的疾病,一直是生命科学和医学领域研究的重点。肿瘤基因组中的体细胞突变是多种突变过程共同作用的结果,这些突变过程来源广泛,像 DNA 复制错误、酶对 DNA 的修饰、DNA 修复缺陷,以及接触烟草烟雾、紫外线辐射等诱变剂。弄清楚这些突变过程,对于理解癌症的发生机制、预测癌症预后和制定治疗方案至关重要。不同的突变过程会产生不同的突变模式,也就是所谓的突变特征(mutational signatures) 。
以往,研究人员常用非负矩阵分解(NMF)技术来从肿瘤基因组测序数据中识别突变特征。但现有 NMF 技术存在明显短板,只能分解单个数据集,这使得在不同条件下对突变特征进行严格比较变得困难重重。而且,在分析多个数据集时,要么对每个数据集分别进行分析,然后主观地比较识别出的特征;要么将多个数据集合并成一个再分解,可这样又需要进行启发式的后处理来判断特征的共享情况。这些临时解决方案不仅效率低下,还无法传递重要的不确定性信息。另外,将估计的突变特征与已知特征(如 COSMIC 数据库中的特征)进行比较,以及探究突变特征与肿瘤水平协变量之间的关系,现有方法也存在诸多不足。
为了攻克这些难题,来自纽约基因组中心(New York Genome Center)和丹娜法伯癌症研究院(Dana Farber Cancer Institute)数据科学系的研究人员开展了深入研究。他们提出了一种贝叶斯 NMF 方法,该方法可以联合分解多个数据集,从而识别突变特征及其在不同条件下的共享模式。研究成果发表在《Genome Biology》上。
研究人员在研究中用到了多个关键技术方法。首先是基于泊松模型的扩展,构建了 “发现 - only” 模型和 “恢复 - 发现” 模型,在 “恢复 - 发现” 模型中,利用来自 COSMIC v3.2 数据库的已知特征构建信息先验。其次,使用了 Metropolis-within-Gibbs 采样器进行参数估计,并通过回火(tempering) 方案改善采样混合效果。此外,为了模拟真实数据,研究人员基于真实的全基因组泛癌分析(PCAWG)研究数据生成模拟数据集,在研究结直肠癌和乳腺癌时,使用了来自癌症基因组图谱(TCGA)和泛癌全基因组分析(PCAWG)的样本数据 。
下面来看具体的研究结果。
- 全面的多研究 NMF 框架:“发现 - only” 模型能将多个计数矩阵作为输入,联合分解来估计突变特征、特征指示矩阵和样本暴露。“恢复 - 发现” 模型则扩展了 NMF 分解,既能恢复已知特征,又能发现新特征。而且,这两个模型都能纳入样本水平的协变量,通过非局部先验来强制系数稀疏化,以探究协变量与暴露之间的关系。
- 多研究环境下改善特征估计:通过模拟研究,对比了该方法与现有方法的性能。在三研究和十研究模拟场景中,“发现 - only” 模型在灵敏度和精度上优于单研究方法,与另一种多研究方法 HDP 相比,性能总体相似。“恢复 - 发现” 模型的效果更好,尤其是在灵敏度方面,能更好地捕捉像 SBS17a 这样的弱信号。此外,对 “恢复 - 发现” 模型中信息先验的性质研究发现,当生成特征与参考特征差异较小时,恢复组件中参考特征的估计暴露更高;差异较大时,发现组件中的特征会更接近生成特征。
- 准确检测和估计协变量效应:在有协变量的模拟场景中,“发现 - only” 模型在 10 次模拟中有 6 次找到了正确的特征和共享模式,“恢复 - 发现” 模型则全部找到。两个模型都能有效区分协变量对不同特征的非零效应和零效应,准确估计系数。不过,在小样本设置下,对某些特征(如 SBS10b)的协变量效应估计变异性较高,但 “恢复 - 发现” 模型的变异性相对较低。
- 揭示结直肠癌的共享和独特机制:研究人员将 “恢复 - 发现” 模型应用于 406 个结直肠癌(CRC)样本研究。根据肿瘤突变负荷将样本分为非高突变、高突变和超高突变三组,纳入性别和年龄作为协变量。结果发现了 34 个特征,不同突变负荷类别的样本具有不同的特征。例如,时钟样特征在非高突变和高突变样本中起主要作用;微卫星不稳定性(MSI)特征在高突变和超高突变样本中都存在,但具体特征的贡献有所不同;与 POLE 突变相关的特征则独特存在于超高突变样本中。在协变量效应方面,在超高突变样本中发现了一些特征与年龄和性别的有趣关系。
- 洞察早发性乳腺癌:研究人员将 “恢复 - 发现” 模型应用于早发性乳腺癌研究,分析了来自 TCGA 和 PCAWG 的不同年龄组乳腺癌肿瘤样本。结果发现了 45 个特征,不同年龄组样本的特征存在差异。例如,最年轻的发病组(TCGA 20 - 29)缺少一些传统上在乳腺癌中预期的特征(如 SBS3),但包含一些与环境因素相关的特征。此外,还发现了一个可能是组织或技术特异性版本的 SBS5 特征。
研究结论和讨论部分指出,该研究提出的贝叶斯多研究 NMF 框架有效解决了扩展 NMF 到多研究设置、实现半监督推理和同时估计协变量效应这三个关键挑战。通过模拟研究和对结直肠癌、乳腺癌样本的分析,充分展示了该方法的优势,能够严谨地识别共享模式和关联,为癌症研究提供了新的见解。不过,研究也存在一定局限性,比如后验的多模态性会导致采样器容易陷入局部后验模式,虽然采用回火方案可以解决,但会增加计算负担,在非常大的数据集设置中适用性有限。另外,特征共享矩阵的正则化方式可能会过度简化共享模式,且未对样本对每个特征的暴露进行稀疏化处理,可能影响对样本内特征贡献的解释。总体而言,这项研究为癌症突变特征的研究开辟了新道路,尽管存在不足,但为后续研究指明了方向,有望推动癌症研究取得更大进展。