CNRein:基于深度强化学习的单细胞 DNA 拷贝数精准检测新算法,助力肿瘤异质性解析

【字体: 时间:2025年04月08日 来源:Genome Biology 10.1

编辑推荐:

  在肿瘤研究中,拷贝数变异(CNA)检测意义重大,但现有方法存在受测量不确定性影响等问题。研究人员开展 “CNRein:一种基于进化感知的深度强化学习单细胞 DNA 拷贝数检测算法” 的研究,结果显示该算法比现有方法更精准,有助于更精确分析肿瘤内异质性。

  肿瘤,这个生命健康的大敌,一直以来都是科学界重点攻克的对象。肿瘤的发生发展伴随着复杂的遗传变化,其中拷贝数变异(Copy Number Aberrations,CNAs)是癌症中极为常见的一种突变形式,平均影响实体瘤 44% 的基因组。它可同时影响众多基因,对理解癌症进化和临床治疗意义非凡。然而,肿瘤内部细胞的高度异质性,加上当前测序技术的局限,使得拷贝数检测困难重重。传统的批量 DNA 测序无法精准到单个细胞,单细胞 RNA 测序又难以定量确定整数拷贝数,而单细胞 DNA 测序虽有进展,但现有算法在检测时容易受噪声干扰,推断出不符合实际进化规律的假阳性 CNAs,这就像在迷雾中寻找真相,困难重重。
为了突破这一困境,来自美国伊利诺伊大学厄巴纳 - 香槟分校(University of Illinois Urbana-Champaign)的研究人员 Stefan Ivanovic 和 Mohammed El-Kebir 开展了一项极具创新性的研究。他们提出了 CNRein(evolution-aware copy number calling via deep reinforcement learning),这是一种基于进化感知的深度强化学习算法,专门用于单细胞 DNA 拷贝数检测。该研究成果发表在《Genome Biology》上,为肿瘤研究领域带来了新的曙光。

研究人员在这项研究中主要运用了以下几种关键技术方法:首先是单细胞 DNA 测序技术,获取大量单细胞的 DNA 序列信息;接着利用深度学习相关技术,构建进化模型来模拟 CNAs 的发生过程;还通过强化学习对模型进行训练优化,使其能更好地拟合数据,从而精准预测拷贝数。在研究过程中使用了来自乳腺癌和卵巢癌患者的样本队列。

下面来详细看看研究结果:

  • CNRein 算法概述:CNRein 的目标是通过最大化观测数据的概率,来估计 CNAs 进化模型的参数,进而预测每个细胞的拷贝数谱。该算法分为数据处理、初始拷贝数估计和最终拷贝数估计三个阶段。数据处理阶段对输入的 BAM 文件进行处理,得到基因组各片段的相关数据;CNNaive 算法在初始拷贝数估计阶段为每个细胞生成近似的拷贝数谱;最后,深度强化学习系统综合各类数据,联合估计所有细胞的拷贝数谱,以最大化观测数据的概率。
  • 评估模拟单细胞 DNA 测序(scDNA-seq)数据:研究人员生成了 20 个模拟实例,包含不同程度肿瘤内异质性和部分全基因组复制(WGD)的情况。通过与 SIGNALS 和 CHISEL 对比,CNRein 在推断拷贝数谱时更准确,能更好地重现真实的克隆结构。例如,在准确性指标上,CNRein 的中位数达到 0.956,而 SIGNALS 为 0.882,CHISEL 为 0.857;在误差评估方面,CNRein 的中位数误差仅为 0.064,远低于其他两种方法。此外,CNRein 在预测独特拷贝数谱数量和构建系统发育树的简约性上也表现更优。
  • 评估用 DLP + 技术测序的卵巢癌数据集:在对 890 个来自卵巢癌 OV2295 的细胞进行研究时,CNRein 与其他方法相比,在拟合读深度数据和正交单核苷酸变异(SNV)数据方面表现出色,同时能产生更简约的解决方案,预测出更多共享的克隆结构。比如,CNRein 预测的最大克隆包含 41 个细胞,而 SIGNALS 每个细胞都有独特的拷贝数谱。在与正交 SNV 数据的一致性评估中,CNRein 也比 CHISEL 和 Alleloscope 表现更好。
  • 评估用 10x Chromium CNV 技术测序的乳腺癌数据集:对乳腺癌患者 S0 的 10,202 个细胞进行研究发现,CNRein 与其他方法相比,能更好地拟合读深度数据,且识别出更多具有相同拷贝数谱的细胞,确定的独特拷贝数谱更少。在系统发育树的简约性评估中,CNRein 的得分远低于其他方法。同时,在与正交 SNV 数据的验证中,CNRein 也有较好的表现。
  • CNRein 在匹配的 10x 和 ACT 测序样本上的一致性:研究人员分析了乳腺癌患者 TN3 分别用 ACT 和 10x 技术测序的数据,发现 CNRein 能在不同技术测序的样本中推断出相似的拷贝数谱,且细胞聚类结果相似,表明该算法在不同测序技术下具有良好的一致性。

综合来看,研究人员通过一系列实验,验证了 CNRein 算法在单细胞 DNA 拷贝数检测方面的优势。与现有方法相比,CNRein 能更精准地推断拷贝数谱,更好地反映肿瘤内异质性,在模拟数据和真实数据的测试中都表现出色。不过,该算法也存在一些需要改进的地方,比如目前其优化依赖于 CNNaive 预测的拷贝数谱,生成的系统发育树简约性还有提升空间等。未来,研究人员计划对算法进行进一步优化,包括改进优化过程、检测双联体和 S 期细胞、整合 SNVs 和 CNAs 的推断等,有望为肿瘤研究和临床治疗提供更有力的支持。这项研究成果为肿瘤的精准诊断和个性化治疗开辟了新的道路,让我们在攻克肿瘤的征程上又迈出了坚实的一步。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号