编辑推荐:
在 ATAC-seq 和 ChIP-seq 差异分析中,拷贝数变异(CNV)常被忽视。研究人员开展了关于拷贝数归一化的研究,提出相关分析流程。结果表明该流程能分离拷贝数驱动的差异信号,在唐氏综合征研究中也有重要发现,为相关研究提供新方法。
在生命科学研究的广袤领域中,随着下一代测序技术的蓬勃发展,像转座酶可及染色质高通量测序(ATAC-seq)和染色质免疫沉淀测序(ChIP-seq)这类功能基因组检测方法,已成为科研人员探索基因调控奥秘的得力工具。它们能够帮助研究人员剖析组蛋白修饰、蛋白质 - DNA 相互作用以及开放染色质景观的变化,这些变化与早期发育进程、疾病的发生发展紧密相连。例如在癌症研究中,找到的差异信号有可能成为潜在的生物标志物和治疗靶点。
然而,在这些研究的关键环节 —— 差异分析中,却隐藏着一个容易被忽视的 “陷阱”,那就是拷贝数变异(CNV)。要知道,ATAC-seq 和 ChIP-seq 捕获的信号是所有基因拷贝信号的总和,样本间拷贝数的差异就像一个 “调皮的捣蛋鬼”,会直接干扰聚合信号,影响对差异信号的解读。以往常用的分析工具,如 bedtools、deeptools 等,根本 “意识” 不到这个问题,它们把背景信号当成有效信号进行量化,后续的分析也跟着 “跑偏”,导致研究结果出现偏差。而且,CNV 和非整倍体在生物医学研究常用的细胞系中十分常见,比如癌细胞系、唐氏综合征(又称 21 三体综合征)相关细胞系等,还有一些天然多倍体组织。所以,为了能准确找到生物过程或疾病中真正由目标因素引起的变化,把 CNV 纳入差异分析就显得尤为重要。
为了解决这个棘手的问题,来自德国马克斯?普朗克学会弗里德里希?米歇尔实验室和荷兰格罗宁根大学的研究人员,开展了一项极具意义的研究。他们提出了一种包含拷贝数归一化的差异分析流程,并通过两个生物医学研究案例,充分展示了该流程的优势。研究最终表明,拷贝数归一化能有效分离由拷贝数差异驱动的差异信号,这一成果为相关研究提供了全新的视角和有力的工具。该研究成果发表在《BMC Genomics》杂志上。
研究人员在研究过程中运用了多种关键技术方法。他们选用了来自布鲁姆综合征(BS)患者和健康供体的成纤维细胞系,以及唐氏综合征患者和非唐氏综合征个体的淋巴母细胞系作为样本队列。实验技术上,进行了 ATAC-seq 和 G - 四链体 ChIP - seq 实验,之后对测序数据进行处理,包括读段比对、过滤,利用 MACS2 进行峰值调用,用 htseq - count 和 DiffBind 等工具进行信号量化和差异分析,还使用 CNVkit 等工具来估计拷贝数比(CNR) 。
研究结果主要体现在以下几个方面:
- 拷贝数变异驱动 ATAC-seq 和 ChIP-seq 中的差异信号:研究人员对 BS 患者和健康供体的细胞系进行 ATAC-seq 和 ChIP-seq 分析时发现,两个细胞系存在广泛的拷贝数差异。在未考虑 CNV 的情况下进行差异分析,结果显示差异信号明显偏向拷贝数较高的样本。比如在染色体 17 和 20 上,拷贝数差异导致了差异信号的偏差,这表明 CNV 是这些区域差异信号的主要驱动因素,可能会混淆研究结果的解释。
- 拷贝数归一化分离拷贝数变异驱动的差异信号:研究人员提出的拷贝数归一化方法分两步,先估计 CNR,再用 CNR 校正信号。经过拷贝数归一化处理后,重新分析 ATAC-seq 数据,发现拷贝数依赖的差异信号偏差大大减少。在染色体 17 和 20 上,差异峰的分布更加平衡,而且约 20% 的 ATAC-seq 峰和 68% 的 ChIP-seq 中 G4 形成位点的差异状态发生了改变,这说明常用工作流程识别的差异信号在很大程度上受到 CNV 的干扰。
- 拷贝数归一化识别唐氏综合征中具有剂量效应和补偿效应的可及染色质区域:研究人员分析唐氏综合征患者和非患者的 ATAC-seq 数据时发现,不进行拷贝数归一化,21 三体极大地驱动了染色体 21 上的差异可及性信号;进行拷贝数归一化后,能识别出具有剂量效应和补偿效应的区域。根据总染色质可及性和每个染色体拷贝的平均染色质可及性变化,可将染色体 21 上的开放染色质区域分为不同类别。这些差异信号与唐氏综合征的临床症状相关基因有关,如 APP 基因、UBASH3A 基因等,拷贝数归一化能揭示这些基因中与剂量补偿和 CN 独立变化相关的信息,这是以往研究可能忽略的。
- 与其他工具的比较:研究人员将自己的方法与 HMCan - diff 等工具进行比较。HMCan - diff 虽然能检测差异信号,但存在局限性,如输出信息有限,不能集成其他工具等。研究人员还测试了用其他拷贝数检测工具替代 CNVkit 的效果,发现不同工具在校正 CNV 驱动的差异信号方面效率不同,这展示了该研究流程的灵活性。
研究结论和讨论部分再次强调了拷贝数变异在基于计数的功能基因组检测差异分析中的重要影响。在布鲁姆综合征研究中,拷贝数归一化能有效去除 CNV 驱动的差异信号,避免错误解读;在唐氏综合征研究中,通过有和没有拷贝数归一化的差异分析,揭示了具有剂量效应和补偿效应的信号,为解释染色质可及性变化提供了新视角。而且,拷贝数归一化的概念和方法不仅适用于 ATAC-seq 和 ChIP-seq,还能应用到其他功能基因组检测中。此外,研究人员还指出应选择合适的 CNV 检测工具,并可进一步将其他考虑 CNV 的峰值调用工具集成到研究流程中,以提高研究结果的准确性。这项研究为生命科学和健康医学领域在基因组分析方面提供了重要的参考,有助于科研人员更深入地理解基因调控机制和疾病发生发展的分子基础。