EnsembleRegNet:一种可解释的深度学习模型,用于从单细胞RNA-seq数据中推断转录网络

《Computational and Theoretical Chemistry》:EnsembleRegNet: Interpretable deep learning for transcriptional network inference from single-cell RNA-seq

【字体: 时间:2025年10月03日 来源:Computational and Theoretical Chemistry 2.8

编辑推荐:

  基因调控网络(GRN)推断是单细胞RNA测序(scRNA-seq)数据分析的关键挑战。本文提出EnsembleRegNet框架,通过集成编码器-解码器与多层感知机(MLP),结合Hodges-Lehmann估计器二值化、RcisTarget富集分析、AUCell regulon活动评分及聚类验证,提升GRN推断的鲁棒性与生物学可解释性。实验表明其优于SCENIC和SIGNET,在细胞聚类精度和调控准确性上均表现更优,为疾病建模、生物标记发现和细胞重编程提供新基准。

  基因调控网络(Gene Regulatory Networks, GRNs)在细胞身份、发育以及多种疾病的发生和进展中起着关键作用。然而,从高维的单细胞RNA测序(scRNA-seq)数据中准确推断这些网络的结构仍然是一个重大挑战。为了应对这一难题,研究团队提出了一种名为EnsembleRegNet的深度学习框架,该框架通过集成编码器-解码器结构和多层感知机(MLP)来推断转录因子(Transcription Factors, TFs)与目标基因之间的关系。EnsembleRegNet采用了一系列增强模型鲁棒性和生物可解释性的策略,包括基于Hodges-Lehmann估计器(HLE)的二值化处理、案例删除分析、利用RcisTarget进行的DNA基序富集分析,以及通过AUCell进行的调控子活动评分。这些方法的结合使得EnsembleRegNet在模拟和真实scRNA-seq数据集上的评估中表现出色,显著优于现有的GRN推断方法,如SCENIC和SIGNET。

基因表达调控是细胞维持其身份、进行发育以及应对疾病的关键机制。这一调控过程由基因调控网络(GRNs)所主导,GRNs通过描绘转录因子(TFs)与目标基因之间的相互作用,为细胞行为的逻辑提供基础。这些网络具有高度的动态性和细胞类型特异性,使其在理解正常生物过程和病理状态方面至关重要。然而,GRNs的解析仍然面临诸多挑战,其中最主要的是调控关系的复杂性和上下文依赖性。这种复杂性源于多种因素,包括直接和间接调控效应的交织、罕见或过渡细胞类型的调节因子识别困难,以及统计模型或线性方法可能导致的高假阳性率。

转录因子(TFs)作为基因表达调控的主控因子,通过与特定DNA序列结合来调控基因表达程序。尽管其调控作用已被广泛研究和理解,但从高维基因表达数据中推断出直接的TF-目标基因关系仍然是一个非平凡的任务,尤其是在异质的单细胞环境中。这些网络不仅决定了细胞内部的调控模式,还影响细胞对外部刺激的响应以及不同状态之间的转换,突显了细胞调控的动态性和相互关联性。随着单细胞RNA测序(scRNA-seq)技术的发展,我们能够以前所未有的精度解析细胞异质性,并在数千个细胞中捕捉基因表达的变化。然而,技术上的挑战,如数据稀疏性、测序中的“dropout”噪声以及非线性依赖关系,限制了许多现有推断方法的有效性。

尽管在方法学上取得了诸多进展,从scRNA-seq数据中推断GRNs仍然面临困难。其中,主要挑战包括:(1)调控关系的复杂性,涵盖了直接和间接效应的相互作用;(2)在罕见或过渡细胞类型中识别调控因子的困难;(3)基于纯统计或线性建模方法的高假阳性率。因此,需要一种更加稳健和生物可解释的推断框架。为了解决这些问题,研究团队引入了EnsembleRegNet,这是一种基于深度学习的框架,旨在通过整合编码器-解码器结构和多层感知机(MLP)来更精确地推断基因调控网络。

EnsembleRegNet由六个核心组件构成。首先,高质量的数据预处理确保scRNA-seq输入数据被正确过滤和标准化,以便进行后续分析。第二步利用编码器-解码器和MLP模型的集成来预测TF-目标基因的相互作用,从而提高预测的准确性和鲁棒性。第三步通过RcisTarget验证基序富集,该工具基于DNA基序数据评估TF与预测目标基因结合的可能性。第四步采用AUCell来量化单细胞水平上的TF活动,通过计算每个调控子的曲线下面积(AUC)得分来评估其活性。第五步基于调控子活动进行细胞聚类,从而识别细胞类型特异性的调控程序。最后,网络可视化揭示了GRNs的潜在结构,并突出了关键的转录调控因子,支持生物学解释和假设生成。

在方法部分,研究团队详细介绍了EnsembleRegNet的框架结构,包括用于评估模型性能的基准数据集、模型的具体实现方式以及用于验证聚类结果的指标。该框架的设计不仅考虑了数据的高维性和异质性,还结合了多种生物学知识和统计方法,以增强模型的生物可解释性。此外,EnsembleRegNet在处理数据稀疏性和噪声方面也表现出较强的鲁棒性,这使其在实际应用中更具优势。

在结果部分,研究团队展示了EnsembleRegNet在多个数据集上的表现,特别是与现有方法SIGNET和SCENIC的比较分析。通过一系列外部和内部聚类验证指标,评估了这些方法在聚类准确性和一致性方面的表现。结果显示,EnsembleRegNet在调控关系的识别和细胞类型特异性网络的构建上均优于其他方法,表明其在基因调控网络推断中的有效性。这些结果不仅验证了EnsembleRegNet的优越性,还强调了其在处理复杂生物数据时的潜力。

EnsembleRegNet的提出为基因调控网络的推断提供了一种新的视角。该框架结合了深度学习的强大建模能力与生物学知识的指导,使其能够更准确地识别调控关系并揭示细胞类型特异性的调控模块。这一方法的创新之处在于其对非线性调控关系的建模能力,以及在大规模数据集上的可扩展性。此外,通过引入Hodges-Lehmann估计器(HLE)的二值化处理和案例删除分析,EnsembleRegNet在提高模型鲁棒性的同时,也增强了其生物学解释性。这些改进使得EnsembleRegNet在处理高维scRNA-seq数据时更加高效和可靠。

在生物学应用方面,EnsembleRegNet的性能展示为基因调控网络推断设定了新的基准。其能够揭示细胞类型特异性的调控模块,从而为疾病建模、生物标志物发现和细胞重编程等研究提供重要支持。通过网络可视化,研究人员可以更直观地理解调控网络的结构和关键调控因子的作用,进而推动新的生物学发现和假设的生成。此外,EnsembleRegNet的可扩展性使其能够适应大规模的单细胞数据集,这对于现代生物医学研究中的复杂问题尤为重要。

研究团队在作者贡献部分明确了各自在项目中的角色。Duaa Mohammad Alawad负责原始稿件的撰写、数据可视化、软件开发、方法设计、实验调查和数据分析。Ataur Katebi负责稿件的审阅与编辑、验证、监督以及概念设计。Md Tamjidul Hoque则负责稿件的审阅与编辑、原始稿件撰写、监督、资源协调、项目管理、资金获取以及概念设计。所有作者都参与了最终版本的审阅和发布。

在资金支持方面,本研究的部分工作得到了美国国立卫生研究院(NIH)下属的国家一般医学科学研究所(NIGMS)的机构发展资助(IDeA)计划的支持,资助编号为P2O GM103424–21。这一支持反映了研究团队在该领域工作的价值和重要性。

最后,研究团队声明不存在与任何作者或建议审稿人相关的利益冲突。这一声明确保了研究的透明性和可信度,表明所有作者均遵循严格的学术规范,并未受到任何潜在利益的影响。这一研究不仅在方法学上有所创新,还在实际应用中展现出巨大的潜力,为基因调控网络的推断提供了新的工具和思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号