编辑推荐:
在研究单细胞染色质结构时,面临单细胞染色质接触图谱缺失率高、现有算法难以捕捉细胞间结构差异等问题。研究人员开展了名为 Tensor-FLAMINGO 的算法研究。结果显示该算法能重建高分辨率 3D 染色体结构,识别单细胞特异性染色质相互作用等,为单细胞 3D 基因组研究提供了有力工具。
在生命科学的微观世界里,染色体就像一群神秘的舞者,在三维(3D)空间中不断变换着舞姿,而这些独特的 “舞蹈动作”,也就是染色体的空间构象,对基因调控、细胞分化等生命活动起着至关重要的作用。以往的研究借助基于全基因组 3C 的技术,如 Hi-C、Capture-C 和 ChIA-PET 等,探索了基因组折叠的模式,包括染色质区室、拓扑相关结构域(TADs)和染色质环等。然而,这些研究大多是在大量细胞的平均水平上进行的,就像拍了一张集体照,每个细胞的独特细节都被模糊了,无法捕捉到单细胞染色质的细胞间结构差异。
近年来,单细胞 3C 技术取得了突破,能够生成单细胞特异性染色质接触图谱。但新的问题又出现了,由于每个细胞的测序深度较低,这些图谱存在大量数据缺失,尤其是在高分辨率下,缺失率极高。这就好比拼图缺了很多块,很难还原出完整的图案。因此,开发先进的计算模型来准确预测单细胞的 3D 染色体结构迫在眉睫。
为了解决这些难题,密歇根州立大学(Michigan State University)的研究人员展开了深入研究。他们开发了一种基于低秩张量补全策略的数据驱动算法 ——Tensor-FLAMINGO,相关研究成果发表在《Nature Communications》上。
研究人员在研究中用到了多个关键技术方法。首先,收集了多种不同类型的单细胞染色质接触图谱数据,如 Dip-C、snHi-C、snm3C 和 scHi-C 实验数据,并进行了预处理,将其组织成稀疏张量作为 Tensor-FLAMINGO 的输入。其次,利用低秩张量补全技术,通过最小化张量核范数来恢复缺失数据,重建高分辨率的单细胞 3D 染色质结构。最后,基于重建的结构,使用多种方法评估其准确性,并分析染色质相互作用、基因调控等相关生物学问题。
下面来看看具体的研究结果:
- Tensor-FLAMINGO 重建高分辨率 3D 染色体结构:研究人员将 Tensor-FLAMINGO 应用于多个单细胞 3C 数据集,成功预测了 10kb 和 30kb 分辨率的单细胞 3D 染色体结构。以 GM12878 的 Dip-C 数据集为例,该算法准确重建了 14 个细胞的染色体 21 的 10kb 分辨率 3D 结构,且准确性比其他方法提高了两倍多。
- 基准性能评估:通过一系列模拟实验,研究人员对 Tensor-FLAMINGO 的性能进行了全面评估。结果显示,在不同结构异质性和噪声水平下,该算法都能实现高精度的单细胞 3D 结构重建。即使在数据缺失率高达 99.9% 的情况下,仍能保持较高的重建精度。
- 优越的重建性能:在真实实验数据的对比中,以 K562 细胞的 STORM 数据集为基准,Tensor-FLAMINGO 在重建 30kb 分辨率的 3D 空间构型时,表现出了比其他算法更高的准确性,其预测结果与基准结构的相关性更强。
- 跨实验环境的稳健准确性:研究人员在多种输入数据集上评估了 Tensor-FLAMINGO 的性能,结果表明,在不同细胞类型、不同分辨率下,该算法都能始终保持较高的准确性,显著优于其他算法。同时,在识别细胞类型特异性结构变异和区分不同细胞类型方面,Tensor-FLAMINGO 也表现出色。
- 增强的单细胞染色质接触高分辨率插补:Tensor-FLAMINGO 可以作为一种高效的单细胞染色质接触高分辨率插补算法。与 Higashi 相比,它能利用染色体 3D 结构的全局信息完成缺失值的插补,在插补准确性和捕捉细胞类型特异性方面表现更优。
- 揭示单细胞特异性空间染色质组织模式:基于 Tensor-FLAMINGO 预测的高分辨率空间染色体构象,研究人员能够系统地描述 3D 基因组折叠模式和细胞间的变化。发现染色质区室、TADs 等在单细胞水平上与批量样本有相似之处,但每个细胞也存在特异性变化,且这些变化与染色质区室和基因表达特异性显著相关。
- 识别动态单细胞长程染色质相互作用:Tensor-FLAMINGO 完成的高分辨率染色质接触图谱有助于识别单细胞中重要的长程染色质相互作用。研究发现,这些相互作用在单细胞水平上存在显著差异,且与批量水平的相互作用既有一致性,也有不同之处,揭示了染色质相互作用的复杂性和动态性。
- 单细胞染色质相互作用的功能解释:高分辨率重建的 3D 染色质结构能够解释特定遗传变异的功能影响。研究发现,急性髓系白血病(LAML)相关的体细胞突变在参与单细胞染色质相互作用的基因组位点中显著富集,且一些疾病相关的单核苷酸多态性(SNP)和表达数量性状位点(eQTL)也能通过 Tensor-FLAMINGO 的预测得到更准确的解释。
- 预测单细胞功能基因调控联系:通过 Tensor-FLAMINGO 预测的单细胞特异性 3D 空间距离,研究人员构建了 LASSO 模型,发现与基因启动子空间距离相关的候选调控元件高度富集增强子,表明该算法在描绘转录调控网络方面具有较高的准确性和效率。
- 揭示单细胞特异性多向相互作用:Tensor-FLAMINGO 预测的高分辨率 3D 染色体结构能够识别多向染色质相互作用。以 351 个 mESC 细胞为例,研究人员发现了 973 个具有统计学意义的三向相互作用,且这些相互作用在不同细胞组中表现出明显的异质性,为理解基因组区域间的空间合作提供了新的视角。
研究结论和讨论部分指出,Tensor-FLAMINGO 通过低秩张量补全技术,有效缓解了单细胞染色质接触图谱中高缺失率的问题,在重建单细胞 3D 染色体结构、插补染色质接触图谱、捕捉细胞类型特异性结构变异和区分细胞类型等方面具有卓越的准确性。与基于生物物理假设的方法不同,它不依赖特定假设,因此在不同单细胞和细胞类型中都能实现稳健的高分辨率 3D 结构重建。
未来,Tensor-FLAMINGO 的发展有三个重要方向。一是提高计算可扩展性,以应对不断增加的单细胞数据量;二是与其他模型整合,扩展对长程顺式调控相互作用的注释;三是进一步提高 3D 染色体构型的分辨率,以更精确地解释功能性非编码调控元件和遗传变异。
总的来说,Tensor-FLAMINGO 为单细胞 3D 基因组研究开辟了新的道路,让我们对基因组的空间组织和基因调控机制有了更深入的理解,有望为未来的生命科学研究和疾病治疗提供重要的理论基础和技术支持。