《BMC Bioinformatics》:ChIPbinner: an R package for analyzing broad histone marks binned in uniform windows from ChIP-Seq or CUT&RUN/TAG data
编辑推荐:
为解决现有软件分析宽组蛋白修饰(PTMs)信号时的局限,研究人员开展 ChIPbinner 软件相关研究,结果显示其能更精准识别差异结合区域,为表观遗传研究提供新工具。
在生命科学的微观世界里,组蛋白修饰如同隐藏在基因密码背后的神秘 “开关”,掌控着基因的表达,进而影响生物的各种生理过程。组蛋白修饰,是指对包裹 DNA 的核小体中组蛋白尾巴进行的化学修饰,这些修饰被称为组蛋白标记,它们能通过促进或阻碍对 DNA 的访问来调节基因表达。比如,狭窄的组蛋白标记,像组蛋白 H3 赖氨酸 27 的乙酰化(H3K27ac),会沉积在特定的基因组区域;而宽组蛋白标记,如组蛋白 H3 赖氨酸 36 的甲基化(H3K36me),则在基因组中广泛分布,覆盖大片区域。
随着测序技术成本的降低,以及人们对驱动疾病的表观遗传机制理解的加深,染色质免疫沉淀测序(ChIP-Seq)、切割并释放使用核酸酶测序(CUT&RUN)和切割并标记测序(CUT&TAG)等用于绘制蛋白质 - DNA 相互作用(例如组蛋白标记)的技术,在生物医学研究中的应用越来越广泛。然而,现有的分析工具,尤其是峰值调用软件,在处理宽组蛋白标记的弥漫、宽泛信号时却困难重重。像基于模型的 ChIP-Seq 分析(MACS),原本是用于检测转录因子结合位点的,但在检测覆盖大片基因组区域的弥漫性富集时,常受到高噪声水平和测序覆盖度不饱和的困扰。虽然也有针对宽组蛋白标记的峰值调用工具,如 EPIC2、MACS 的 “--broad” 功能和用于 CUT&RUN 的稀疏富集分析(SEACR)等,但不同工具对真正的信号富集判断存在差异,而且弥漫的宽区域还会被分割成小的、往往没有生物学意义的峰值。此外,当染色质修饰的基因组分布性质发生变化时,情况更加复杂,例如小儿胶质瘤中的 H3K27M 突变会使 H3K27me3从宽分布变为启动子聚焦分布,不同酶沉积的 H3K36me2也存在宽窄差异,这使得统一的比较分析方法难以应用 。
为了解决这些问题,来自麦吉尔大学(McGill University)的研究人员 Reinnier Padilla、Eric Bareke、Bo Hu 和 Jacek Majewski 开展了一项研究,相关成果发表在《BMC Bioinformatics》杂志上。他们开发了一个名为 ChIPbinner 的开源 R 软件包,专门用于对宽 PTMs 进行无参考依赖的分析。
研究人员在研究过程中运用了多种关键技术方法。首先,将 ChIP-Seq 或 CUT&RUN/TAG 数据以均匀窗口分箱并转换为 BED 格式作为输入数据。然后,使用 DESeq2 的中位数比率法或 edgeR 的修剪均值 M 值(TMM)法对原始读取计数进行归一化处理,还可选择排除 ENCODE 黑名单区域的伪影信号和低原始读取计数的箱。此外,利用基于密度的层次聚类方法 HDBSCAN 来识别行为相似的箱的聚类,并使用可重复性优化测试统计(ROTS)方法进行差异结合分析。
研究结果如下:
- 模拟 ChIP-Seq 数据集:研究人员创建了模拟数据集,对 ChIPbinner 和 csaw 进行详细的性能比较。结果显示,在检测 H3K36me2和 H3K4me1时,ChIPbinner 的精度显著高于 csaw,F1 分数也更高。这是因为 csaw 在模拟的下采样样本中错误识别了上调的箱,将其归类为假阳性,而 ChIPbinner 能更准确地识别差异结合区域。
- 案例研究:研究人员以头颈部鳞状细胞癌(HNSCC)细胞系 Cal27 中 NSD1 基因敲除(NSD1-KO)后 H3K36me2的变化为例进行研究。ChIPbinner 识别出一个名为 Cluster B 的箱簇,该簇在野生型细胞系(WT)中 H3K36me2水平高,而在 NSD1-KO 细胞系中水平低。相比之下,csaw 检测到的 H3K36me2丢失区域较少,且报告了大量错误的上调箱。进一步分析发现,Cluster B 主要位于基因间区域,富集增强子,并且与 H3K27ac 结合减少,导致同一拓扑相关结构域(TAD)内的靶基因下调。此外,研究人员还用 ChIPbinner 在其他细胞系中研究了 H3K9me3等宽组蛋白标记的变化,同样取得了有意义的结果。
研究结论和讨论部分指出,ChIPbinner 为研究人员提供了一种分析表观遗传数据趋势和模式的无偏工具,尤其适用于宽组蛋白标记的研究。它改进了先前的软件,提供了独立于差异结合(DB)状态的聚类方法,能更精确地识别宽组蛋白标记的差异结合区域,还具备用于下游分析的额外功能。在基因组中宽组蛋白标记分布或水平发生重大变化的情况下,如 NSD1-KO 导致 H3K36me2变化,ChIPbinner 能有效探索不同条件下染色质修饰的差异,帮助研究人员分析宽组蛋白标记在基因间和基因区域的分布变化,且不受峰值调用工具或固定统计模型的假设和限制。这一研究成果为表观遗传学研究提供了新的有力工具,有助于深入理解疾病发生发展的表观遗传机制,推动生物医学领域的进一步发展。