
-
生物通官微
陪你抓住生命科技
跳动的脉搏
单细胞和表观遗传数据的可解释深度学习揭示了衰老的新分子见解
【字体: 大 中 小 】 时间:2025年02月12日 来源:Scientific Reports 3.8
编辑推荐:
衰老过程的分子机制研究面临诸多挑战。年龄相关的分子变化效应量小,从嘈杂且往往样本量不足的组学数据中可靠检测这些变化颇具难度。以往多数组学数据来自批量组织,其中包含多种细胞类型,测量这种异质混合物中的年龄相关变化可能掩盖单个细胞类型的潜在变化。
近日,来自宁波东方理工大学数字孪生研究院、中国科学技术大学生命科学学院、中国科学院上海营养与健康研究所计算生物学重点实验室等单位的研究人员,在《Scientific Reports》期刊上发表了题为 “Interpretable deep learning of OPEN single - cell and epigenetic data reveals novel molecular insights in aging” 的论文。这一研究借助深度学习(DL)和可解释人工智能(XAI)技术,深入剖析单细胞和表观遗传数据,为衰老过程的分子机制研究带来全新视角,在生物学和医学领域具有重要的理论和实践意义。
衰老过程的分子机制研究面临诸多挑战。年龄相关的分子变化效应量小,从嘈杂且往往样本量不足的组学数据中可靠检测这些变化颇具难度。以往多数组学数据来自批量组织,其中包含多种细胞类型,测量这种异质混合物中的年龄相关变化可能掩盖单个细胞类型的潜在变化。尽管单细胞组学数据革命在一定程度上解决了细胞异质性问题,但单细胞转录组数据仍然极为嘈杂。目前,深度学习方法在单细胞数据或分选细胞群体的组学数据中的应用尚处于探索阶段,现有研究多集中于批量组织的 DNA 甲基化和 RNA - Seq 数据,构建衰老时钟,但从单细胞数据构建衰老时钟的深度学习范式应用较少。
研究使用了 Yazar 等人的 scRNA - Seq 数据集,包含 981 名供体的 1248980 个外周血单核细胞;还使用了 Reynolds 等人的 Illumina 450k DNA 甲基化数据集,用于训练的 1202 个分选单核细胞样本,以及来自 BLUEPRINT 联盟的 139 个单核细胞样本用于测试。同时,采用了 Pathway Commons 高度策划的综合版本的蛋白质 - 蛋白质相互作用(PPI)网络作为先验生物学信息。
对于 scRNA - Seq 数据,先去除在四种细胞类型中表达细胞数少于 20 的基因,再映射到 PPI 网络并去除同层基因间的边,选取最大连通分量得到最终 PPI 网络;DNA 甲基化数据则先在基因水平汇总,再确定与 PPI 网络的共同基因、去除同层边并选取最大连通分量。此外,研究采用元细胞策略降低 scRNA - Seq 数据噪声,每个元细胞由 15 个单细胞组成。
研究人员开发了多视图图级表示学习(MGRL)框架。该框架融合了深度图卷积神经网络(DeeperGCN)和多层感知器(MLP),DeeperGCN 用于捕获局部联合拓扑和基因表达信息,MLP 专注于提取基因表达信息。为解释衰老时钟,采用了先进的 XAI 算法(PGExplainer),通过分解输入图、最大化互信息、采样子图并优化目标函数,识别影响预测结果的重要节点和边。
研究人员收集大规模 scRNA - Seq 数据集,构建元细胞并将其 mRNA 表达数据与 PPI 网络整合,利用 MGRL 算法构建预测元细胞年龄的模型,再用 PGExplainer 解释模型。
在预测年龄任务中,以天真 CD4 + T 细胞等多种免疫细胞类型为研究对象,将 DL - XAI 时钟与弹性网络回归模型、GLMgraph 和随机森林等方法对比。结果显示,DL - XAI 时钟在预测准确性上与其他方法相当,在使用中位绝对误差评估时,略优于弹性网络等方法;在使用皮尔逊相关系数评估时,表现与其他方法各有优劣,但总体能改善平均绝对误差,且在不同免疫细胞类型中结果相似。
使用最大的天真 CD4 + T 细胞数据集,对比 MGRL 算法中 DeeperGCN 与经典 GCN、GraphSAGE 和 GAT 的预测性能。结果表明 DeeperGCN 性能略优,且 MGRL 框架中 DeeperGCN 与 MLP 融合的方式相较于仅基于 DeeperGCN 的框架性能更优,凸显了多视图融合方法的独特优势。
应用 PGExplainer 算法,对训练集中每个元细胞的 PPI 边按解释力排序。在天真 CD4T 细胞中,确定了 282 条 PPI 边和 199 个独特基因,这些基因与年龄的关联显著强于其他基因,且在多个免疫细胞类型中,DL - XAI 时钟揭示的基因显著富集于核糖体和剪接体等 KEGG 通路,而其他方法的富集程度较低,突出了 DL - XAI 方法挖掘新生物学见解的优势。
经 DL - XAI 时钟分析发现,在测试的 4 种免疫细胞类型中均存在核糖体基因富集现象。研究验证了 78 个核糖体基因与年龄的关联更强,且在不同免疫细胞类型和物种(如小鼠脑细胞亚型)中,核糖体基因随年龄的表达变化具有普遍性,表明其表达失调是衰老的保守和通用标记。
在最大的分选细胞 DNA 甲基化数据集上训练 DL - XAI 框架,应用于独立数据集测试。结果显示,DL - XAI 时钟在使用中位绝对误差评估时优于弹性网络和 GLMgraph 构建的年龄预测器。PGExplainer 选择的 187 个基因与年龄相关性更强,基因集富集分析表明这些基因显著富集于细胞因子 - 细胞因子受体相互作用和 JAK - STAT 信号通路等,而其他方法未显示这些富集,揭示了 DL - XAI 时钟在不影响预测准确性的同时显著提高生物学可解释性。
研究表明,深度学习结合可解释人工智能技术,在从单细胞和表观遗传数据构建分子衰老时钟方面具有潜力。虽然在预测年龄准确性上,深度学习相较于传统方法提升有限,但在生物学解释方面优势明显。通过 DL - XAI/MGRL 策略,研究人员发现了与年龄相关的核糖体基因模块和炎症相关信号通路的变化,这些是传统方法难以发现的。
DL - XAI 时钟能够识别出 78 个核糖体基因表达模块,其随年龄变化在不同细胞类型和物种中具有一致性;在 DNA 甲基化数据研究中,揭示了细胞因子和 JAK - STAT 信号通路的表观遗传失调。这些发现为衰老过程的分子机制研究提供了新的靶点和理论依据,有助于深入理解衰老相关疾病的发生发展机制,为开发干预衰老和相关疾病的新策略奠定基础。
此外,研究提出的 MGRL 框架具有一定优势,多视图融合策略增强了模型的表示学习能力,PGExplainer 提高了模型的可解释性。但该框架也存在计算成本高的局限性。未来研究可从开发端到端可解释的 GCN 模型、应用大语言模型等方面进一步提升模型性能和可解释性,并且该深度学习框架还可拓展应用于其他单细胞或分选数据类型,有望在生物学研究中发挥更大作用。
生物通微信公众号
知名企业招聘