基于图表示学习从单细胞 RNA 测序数据推断基因调控网络的研究:为精准医学解锁基因奥秘

【字体: 时间:2025年04月19日 来源:BMC Bioinformatics 2.9

编辑推荐:

  为解决从单细胞 RNA 测序(scRNA-seq)数据推断基因调控网络(GRN)面临的挑战,江南大学研究人员开展了 GRLGRN 模型相关研究。结果显示 GRLGRN 在多数数据集上表现优异,为研究细胞动态、药物设计等提供了新方法。

  在生命科学的微观世界里,基因调控网络(GRN)就像一座神秘的 “基因之城”,其中转录因子(TFs)和靶基因相互协作,决定着细胞的命运和功能。对 GRN 的深入探究,能为细胞动态研究、药物设计以及代谢系统优化提供关键线索。然而,传统的研究方法,如涉及微阵列和染色质免疫沉淀测序(ChIP-seq)的实验,不仅耗时费力,还高度依赖实验条件。随着单细胞高通量测序技术的飞速发展,大量单细胞 RNA 测序(scRNA-seq)数据涌现,为研究 GRN 带来了新机遇,但也面临着诸多挑战,比如细胞异质性、测量噪声和数据缺失等问题,使得从 scRNA-seq 数据推断 GRN 困难重重。
为了攻克这些难题,江南大学的研究人员开展了一项极具意义的研究。他们提出了一种名为图表示学习 GRN(GRLGRN)的深度学习模型,旨在根据先验 GRN 和单细胞基因表达谱数据,推断基因之间潜在的调控依赖关系。

研究人员在研究过程中运用了多种关键技术方法。首先,利用图变压器网络从先验 GRN 中提取隐式链接,并通过图卷积网络(GCN)获取基因嵌入;其次,借助卷积块注意力模块(CBAM)优化特征提取;最后,引入图对比学习和自动加权损失训练技术,防止模型过拟合。

研究结果主要通过以下几个方面呈现:

  1. 基准数据集上的性能:研究人员将 GRLGRN 与六种模型在七个细胞系的基准数据集上进行比较,涵盖了三种真实网络。结果显示,GRLGRN 在 78.6% 的数据集上,受试者工作特征曲线下面积(AUROC)取得最佳预测结果,在 80.9% 的数据集上,平均精度召回率曲线下面积(AUPRC)表现最优,平均提升分别为 7.3% 和 30.7%。这表明 GRLGRN 在推断 GRN 方面性能卓越,远超其他模型。
  2. 消融研究:通过构建 GRLGRN 的变体模型进行消融实验,结果表明图变压器层和 CBAM 对 GRLGRN 至关重要。移除这些模块会导致模型性能下降,而 GRLGRN 在多数数据集上的表现优于其变体模型。同时,实验还验证了图对比学习和自动加权损失训练技术能够提高模型推理精度。
  3. 图变压器层的解释:研究人员对图变压器层进行深入分析,发现其能自动学习有用的隐式链接,优化特征提取过程。在人类胚胎干细胞(hESC)数据集上,不同类型的隐式链接,如两个靶基因之间以及转录因子与靶基因之间的跳跃级隐式链接,在特征提取中发挥着重要作用。
  4. 预测结果的网络可视化:GRLGRN 能够识别出如 TFAP2A 等具有高连接度的枢纽基因。在 hESC 细胞系中,TFAP2A 参与多种生物过程,其突变与多种先天性疾病相关。GRLGRN 预测的 TFAP2A - 基因对相互作用,部分得到了验证,这进一步证明了该模型在预测新的潜在基因对相互作用方面的有效性。

研究结论和讨论部分指出,GRLGRN 在预测基因相互作用方面表现出色,为研究 GRN 提供了可解释性,如识别枢纽基因和揭示隐式链接。然而,GRLGRN 也存在一定局限性,作为基于监督学习的模型,其性能依赖于样本标签的可靠性,而获取精确的生物网络标签是一个难题。未来的研究可以探索无监督学习方法,减少对数据标签的依赖,还可以尝试应用迁移学习和元学习技术,整合多组学数据,更全面地理解基因调控。

总的来说,这项研究发表在《BMC Bioinformatics》上,为基因调控网络的研究开辟了新道路。GRLGRN 模型的提出,不仅为生命科学领域的研究提供了有力工具,也为精准医学的发展带来了新的希望,有望在未来帮助人们更好地理解疾病发生机制,开发出更有效的治疗方法。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号