
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Mactop:基于马尔可夫聚类的三维基因组拓扑结构域解析工具揭示染色质高阶组织新机制
【字体: 大 中 小 】 时间:2025年08月28日 来源:Communications Biology 5.1
编辑推荐:
本研究针对三维基因组中拓扑关联域(TADs)识别与分类的挑战,开发了基于马尔可夫聚类的工具Mactop,可精确识别TADs及其边界类型,并首次发现"染色质社区(chromunity)"结构。该工具在分辨率适应性、数据稳定性方面表现优异,揭示了TAD内部相互作用的异质性特征,为理解染色质空间组织与基因调控关系提供了新视角。
在探索生命奥秘的征程中,科学家们逐渐认识到基因组并非线性排列的简单字符串,而是具有复杂三维空间结构的"分子雕塑"。近年来,高通量染色体构象捕获技术(Hi-C)的突破性发展,让研究者能够绘制出染色质在细胞核内的空间互作图谱,其中最引人注目的发现就是拓扑关联域(Topologically Associating Domains, TADs)的存在。这些大小约0.1-1Mb的染色质区域表现出强烈的内部相互作用,被认为是基因组三维组织的基本功能单元,与基因表达调控密切相关。然而,如何准确识别这些结构单元并解析其内部组织规律,仍然是基因组学领域亟待解决的关键问题。
现有TAD识别方法面临三大挑战:不同算法结果差异显著;难以区分边界类型;缺乏对TAD内部异质性的认识。这些问题严重制约了我们对三维基因组结构与功能关系的理解。正是基于这些科学难题,由Ran Duan、Dachang Dang等研究人员组成的团队在《Communications Biology》发表了创新性研究成果,开发了名为Mactop的新型分析工具。
研究人员采用马尔可夫聚类算法为核心,结合矩阵重采样和噪声添加策略,建立了完整的分析流程。关键技术包括:Hi-C数据标准化处理(ICE方法)、多尺度矩阵分割、染色质互作图谱构建、马尔可夫聚类分析,以及针对高阶互作数据(Pore-C)的特殊处理。研究使用了Rao等提供的5种细胞系(GM12878、NHEK等)的Hi-C数据,以及ENCODE计划的ChIP-seq、DNase-seq等多组学数据进行验证。
通过系统比较Mactop与Directionality Index(DI)、Insulation Score(IS)和TopDom等方法的表现,研究发现Mactop在多个评估指标上表现优异。在边界识别一致性方面,Mactop识别的边界中超过80%能被至少两种其他方法确认。特别是在数据分辨率变化(25kb至100kb)和测序深度降低(下采样至0.01%)时,Mactop展现出更强的稳定性。通过轮廓系数(silhouette coefficient)评估聚类质量,Mactop得分为0.72,显著高于其他方法(p<0.05)。
Mactop创新性地将TAD边界分为稳定型、动态型和模糊型三类。分析显示,稳定边界处CTCF、RAD21和SMC3等结构蛋白的富集程度显著高于动态边界(p<0.05),且与活跃转录标记(H3K4me3、H3K36me3等)密切相关。跨细胞系比较发现,稳定边界的保守性达40%,是动态边界的4倍。由稳定边界界定的TADs表现出更强的组蛋白修饰富集,提示其在基因调控中的特殊作用。
通过构建TAD互作网络,研究首次报道了"TAD社区"(TAD communities)现象。这些社区由3个及以上空间邻近的TADs组成,具有小世界网络特性(平均路径长度4.26)。与孤立TADs相比,社区TADs表现出更高的染色质开放度(SDOC指标)和转录因子(如YY1、Pol2)富集。引人注目的是,社区结构在五种细胞系中保守性超过50%,提示其可能代表了一种保守的基因组空间组织模式。
在高阶互作数据(Pore-C)分析中,Mactop发现了被称为"chromunity"的新型亚TAD结构。约65%的TADs包含1-3个chromunities,这些区域具有更高的染色质可及性(DNase-seq信号)和活跃组蛋白修饰(H3K4me2、H3K27ac等)。与传统的sub-TADs不同,chromunities表现出核心自互作区域与周边区域的多点互作特征,在GM12878和K562细胞系中展现出细胞类型特异性分布模式。
这项研究通过创新的算法开发和多维度验证,不仅提供了强大的分析工具Mactop,更重要的是揭示了三维基因组组织的新规律。稳定/动态边界的分类为理解TAD形成的分子机制提供了新视角;TAD社区的发现暗示了跨域基因协同调控的可能机制;而chromunity的鉴定则刷新了我们对TAD内部结构的认知。这些发现将推动对基因组空间组织与基因表达调控关系的深入理解,并为疾病相关染色质结构变异的研究提供新思路。特别值得一提的是,Mactop在极低测序深度(0.01%)下仍能保持稳定性能,这将大大降低三维基因组研究的成本门槛,有助于该技术在更广泛研究场景中的应用。
生物通微信公众号
知名企业招聘