利用机器学习区分肿瘤中种系与癌症相关结构变异:GaTSV 的重要突破

【字体: 时间:2025年03月13日 来源:Cell Reports Methods 4.3

编辑推荐:

  本文介绍一种基于机器学习的分类器(GaTSV),可区分肿瘤中种系和癌症相关结构变异(SVs)。

  

研究背景

结构变异(SVs)是基因组物质的重排,源于不正确的双链断裂(DSB)修复。大规模全基因组测序(WGS)揭示了体细胞 SVs 在癌症发生中作为驱动因素和生物标志物的重要作用,而种系 SVs 则对人类遗传多样性有重要贡献。
种系和体细胞 SVs 可能源于不同的 DSB 修复机制。种系 SVs 主要由非等位同源重组产生,而体细胞 SVs 倾向于通过非同源末端连接(NHEJ)和基于复制的修复机制形成,这些机制更易出错。目前,确定 SVs 是体细胞还是种系来源,通常需要将高度克隆的体细胞组织(如癌症或单细胞)的测序数据与代表种系的多克隆 “正常” 组织进行比较。但在临床和长期细胞系模型研究中,正常组织样本往往难以获取。
现有去除无匹配正常样本中种系 SVs 的方法,如 “模糊匹配”,即将 SV 断点与种系参考数据库进行匹配,但该方法存在诸多局限性,包括无法检测罕见种系变异、缺乏标准化的参数定义以及不同 SV 检测工具在断点调用上的差异等。因此,开发一种在缺乏正常组织样本时区分种系和体细胞 SVs 的方法,在临床和癌症研究中都具有重要价值。

研究方法

研究人员使用来自癌症基因组图谱(TCGA)的 963 例患者的配对肿瘤 - 正常全基因组测序数据,利用 SvABA SV 检测工具确定 SVs 的断点和类型。从 TCGA 队列中随机选取三分之二的样本(555,849 个 SVs)作为训练集,其余三分之一(277,925 个 SVs)作为测试集。
对每个 SV 进行多种特征注释,包括与 gnomAD 参考 SV 的距离、DNA 复制时间、插入序列和同源序列的 GC 含量及长度、TP53 基因突变状态、5Mbp 窗口内其他 SV 的数量、样本中 SV 的总数、与长散在核元件(LINE)和短散在核元件(SINE)的距离、与最近 SV 的距离、SV 的跨度、SV 的类型(删除、重复、倒位或易位)以及对基因和外显子的影响等。对相关特征进行对数转换和标准化处理,以减少噪声和便于模型训练。
通过将每个测试集中的重排与 gnomAD 参考 SV 进行比对,计算平均距离,以不同距离截断值构建 ROC 曲线,评估分类性能。训练 21 个单特征逻辑回归模型,每个模型对应一个注释特征,使用 R 语言的 glm 方法,在训练集上训练模型,并在测试集上计算预测概率,评估模型性能指标,包括 AUC、TPR 和 FPR。使用 R 语言 e1071 包中的支持向量机(SVM),采用径向基函数(RBF)核,通过网格搜索确定成本和 gamma 参数分别为 10 和 0.1。在训练过程中进行 5 折交叉验证,选择能使 TPR 和 PPV 之和最大的概率截断值,构建 GaTSV 分类器。

研究结果

在 963 例肿瘤样本中,种系 SVs 数量远多于体细胞 SVs,两者比例约为 17:1。种系 SVs 的数量在个体间相对稳定,与年龄无关;而体细胞 SVs 的数量与年龄呈轻微正相关。
种系和体细胞 SVs 在多个特征上存在显著差异。体细胞 SVs 的跨度比种系 SVs 大 60 倍,更易出现大于 1,000bp 的跨度,在 1Mb 跨度时,体细胞 SVs 的可能性是种系 SVs 的 60 倍。种系 SVs 的断点同源性水平更高,与转座子介导的过程相关,更靠近 SINE 和 LINE 元件;而体细胞 SVs 更易由染色体断裂重排形成,更靠近彼此,更易破坏编码序列或跨越整个基因。种系 SVs 中删除事件占比约 75%,而体细胞 SVs 中易位事件的可能性是种系 SVs 的 9 倍。种系 SVs 更接近 gnomAD 数据库中的参考 SVs。
使用 gnomAD v.4.0 人口数据集过滤种系 SVs,只有一小部分种系 SVs 能与 gnomAD SV 精确匹配。模糊匹配方法的 AUC 为 0.90,但存在大量种系污染,无法有效区分种系和体细胞 SVs。单特征逻辑回归模型的平均 AUC 为 0.656,没有单个特征能准确区分种系和体细胞 SVs。
GaTSV 分类器在测试集中的 AUC 达到 0.989,敏感性(TPR)为 0.915,特异性(1 - FPR)为 0.977,PPV 为 0.849。在不同肿瘤类型中,GaTSV 的性能有所差异,肉瘤中体细胞 SV 负担最高,分类器的 PPV 也最高;急性髓细胞白血病中体细胞 SV 数量最少,PPV 最低。样本中体细胞 SV 负担越低,PPV 越低。GaTSV 对非复发 SVs 和不在 gnomAD 数据库中的 SVs 的分类准确性高于模糊匹配方法。
在独立的儿科高级别胶质瘤(pHGG)数据集上,GaTSV 的敏感性为 0.975,特异性为 0.892,PPV 为 0.839,表明其在不同数据集上具有稳健的性能。由于训练集中欧洲裔个体占比过高,GaTSV 对欧洲裔个体的 SVs 分类性能优于东亚裔和非洲裔个体,在非洲裔个体中表现最差,但仍优于 gnomAD 模糊匹配方法。
使用 GaTSV 对 TCGA 数据集进行 SV 特征分析,能够准确提取体细胞 SV 特征模式,在参考 SV 特征比例的比较中,GaTSV 的表现优于 gnomAD 模糊匹配。在使用 Manta 检测的 pHGG 肿瘤数据测试集中,GaTSV 的敏感性为 0.995,特异性为 0.747,PPV 为 0.668,表明其对其他 SV 检测工具检测到的 SVs 也有可靠的分类性能。

研究结论

本研究进一步证实了种系 SVs 较短、对基因影响较小、断点附近同源碱基更多,而体细胞 SVs 更易聚集、远离转座子元件。这些差异反映了种系和体细胞中 DSB 修复过程以及适应性约束的不同。
利用这些差异开发的 GaTSV 分类器,在无匹配正常样本的情况下,能够以高敏感性和特异性区分种系和体细胞 SVs,为研究种系和体细胞 SVs 的形成和影响开辟了新途径。通过 GaTSV,可对缺乏匹配正常样本的临床样本中的 SVs 进行研究,有助于发现药物敏感性、CRISPR 依赖性与特定 SVs、SV 特征和 SV 丰度之间的关系,还能更准确地评估指导 SV 形成的因素及其对治疗开发的影响。
然而,GaTSV 也存在一些局限性。在非洲裔患者中的表现不如欧洲裔患者,可能是由于训练数据集中非洲裔个体代表性不足。该工具针对 SvABA 检测的 SVs 进行了优化,对其他 SV 检测工具的性能可能需要重新训练或调整超参数。此外,短读长测序数据可能导致人工重排,影响分类结果的生物学解释。未来研究可通过使用长读长测序数据、增加训练集中不同族裔的代表性以及扩展 GaTSV 对其他软件检测的 SVs 的支持,来解决这些问题。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号