DconnLoop:基于多源数据整合的深度学习模型,精准预测染色质环

《BMC Bioinformatics》:DconnLoop: a deep learning model for predicting chromatin loops based on multi-source data integration

【字体: 时间:2025年04月03日 来源:BMC Bioinformatics 2.9

编辑推荐:

  为解决当前染色质环检测方法依赖单源数据,难以捕捉其多样特征的问题,研究人员开展 “DconnLoop:基于多源数据整合的深度学习模型预测染色质环” 研究。结果显示该模型在精度和召回率上优于现有方法,为研究染色质环及相关疾病机制提供新途径。

  在微观的细胞世界里,基因组的三维结构如同一个神秘的迷宫,而染色质环则是其中至关重要的 “连接桥梁”。染色质环在基因组的三维组织和基因调控中扮演着关键角色,它能够让远端的基因组元件相互作用,就像在迷宫中开辟出一条条捷径,精确调控基因的表达。一旦这些 “桥梁” 出现异常,比如在发育障碍和癌症等疾病中,染色质环的结构和功能发生改变,就可能导致基因表达的紊乱,进而引发各种健康问题。
目前,研究染色质环的方法主要分为无监督和有监督两类。然而,主流的检测方法大多依赖单源数据,比如 Hi-C(高通量染色体构象捕获技术),这就如同只用一种工具去探索复杂的迷宫,很难全面地捕捉到染色质环结构的多样特征。在这样的背景下,河南理工大学和河南大学的研究人员开展了一项重要研究,旨在开发一种更强大的方法来预测染色质环。

研究人员开发了一种名为 DconnLoop 的方法,该方法整合了 Hi-C、ChIP-seq(染色质免疫沉淀测序)和 ATAC-seq(转座酶可及染色质测序)数据,利用深度学习模型进行特征提取和融合,以实现对染色质环的精准预测。

在技术方法上,研究人员首先对输入数据进行处理。对于 Hi-C 数据,以 10 kb 分辨率构建子矩阵,通过 Poisson 分布模型进行显著性检验,筛选出可靠的相互作用对,并生成 Hi-C 子矩阵。同时,基于 ATAC-seq 和 ChIP-seq 数据,通过确定范围、提取信号、双边滤波和转置点乘等操作,生成相应的子矩阵。接着,利用 ResNet 模型、Directional Prior Extraction、Sub-path Direction Excitation Model 和 Interactive Feature-space Decoder 进行特征提取和融合。之后,采用 MLP 模型对染色质环进行评分,识别候选环。最后,通过密度估计和 HDBSCAN(基于密度的空间聚类算法)进行聚类,得到最终的染色质环预测结果。在训练数据生成方面,整合 CTCF ChIA-PET 和 H3K27ac HiChIP 数据构建非冗余相互作用集,同时通过随机采样策略生成负样本。采用留一法交叉验证(Leave-One-Out Cross-Validation,LOO-CV)进行模型训练和验证,并运用了早停法和学习率调整策略防止过拟合。

在研究结果部分:

  • 数据集详情与消融实验:研究中使用的所有数据集进行了格式转换和 KR 归一化处理。消融实验表明,多源数据的整合显著提升了模型性能。当使用单源 Hi-C 数据时,模型虽也能保持较高性能,但不如多源数据组合。双源数据组合的性能介于两者之间,其中 ChIP-seq 和 Hi-C 数据的组合表现接近全数据集,这凸显了 CTCF ChIP-seq 数据在构建染色质环中的重要作用。
  • 模型性能比较:与现有的深度学习方法 DLoopCaller 和机器学习方法 Peakachu 相比,DconnLoop 在各项评估指标上,如 F1 分数、PRAUC(Precision-Recall Area Under Curve,精确召回曲线下面积)和 MCC(Matthews Correlation Coefficient,马修斯相关系数),均表现出显著优势。即使仅使用 Hi-C 数据作为输入,DconnLoop 仍优于其他两种方法,体现了其强大的泛化能力和稳健性。
  • 跨细胞系和跨物种预测能力:用在人淋巴母细胞系 GM12878 上训练的模型对人白血病细胞(K562)、人胚胎干细胞(H1ESC)和小鼠胚胎干细胞(MESC)进行预测。结果显示,模型在不同细胞和物种类型上均表现出较高的精确召回曲线性能,表明在一种人类细胞类型上训练的模型可较好地推广到其他人类细胞类型,在小鼠细胞上虽性能略有下降,但仍保持较高精度和召回率。
  • 染色质环检测结果分析:对不同工具在 GM12878 细胞染色体 15、16 和 17 上的检测结果进行比较。定量分析发现,DconnLoop 与其他工具的预测结果重叠较多;富集实验分析表明,DconnLoop 对目标环的支持最多;CTCF 结合位点分析显示,DconnLoop 在 CTCF 结合位点附近的峰富集更高;调节元件富集分析发现,DconnLoop 能有效捕获增强子 - 启动子相互作用;聚合峰分析和距离分布研究表明,DconnLoop 在聚合峰分析中表现出色,且预测的短程相互作用环较少;Hi-C 热图分析显示,DconnLoop 的检测结果更集中,与目标环的重叠度更高。
  • 不同测序深度下的性能:通过 FAN-C 方法对 Hi-C 接触矩阵进行下采样,测试不同测序深度对 DconnLoop 性能的影响。结果表明,在不同测序深度下,模型均保持稳健性能,且在低覆盖度数据中也能检测到大量与实验验证环高度一致的环,证明了 DconnLoop 在不同测序深度下的高稳健性和可靠性。

研究结论和讨论部分指出,DconnLoop 模型通过整合多源基因组数据,为构建和预测染色质环提供了一种新颖的方法。该模型在各种条件下表现出色,在关键生物学特征分析方面优于现有工具。未来,研究人员计划整合更多数据类型,如 DNA 甲基化和转录组学数据,进一步提高预测准确性和生物学可解释性,深入探究染色质环形成的调控机制,为理解基因调控和相关疾病的发生发展提供更全面的视角。这项研究成果发表在《BMC Bioinformatics》上,为该领域的研究开辟了新的方向,有望推动生命科学和健康医学领域对基因组调控机制的深入理解和探索。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号