基于神经网络差异解释分析解码心力衰竭亚型:一种新型生物标志物发现方法
《Briefings in Bioinformatics》:Decoding heart failure subtypes with neural networks via differential explanation analysis
【字体:
大
中
小
】
时间:2025年11月13日
来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对单细胞转录组数据复杂性和传统差异表达分析局限性,提出基于可解释人工智能(XAI)的差异解释基因(DXG)新方法。通过构建去噪自编码器(DAE)与多层感知器(MLP)组合模型,成功实现心力衰竭亚型精准分类(F1-score>0.95),并利用Shapley值识别出VTI1A、ABCC1等HFpEF新型生物标志物。研究表明DXG较传统DEG能更精准捕获心力衰竭相关通路,为心血管疾病精准医疗提供新范式。
在老龄化社会背景下,心血管疾病持续位居全球致残率和死亡率首位。尽管预防策略不断进步,但心力衰竭(HF)的早期诊断和分型治疗仍面临重大挑战。特别值得注意的是,射血分数保留型心衰(HFpEF)与射血分数降低型心衰(HFrEF)在病理机制上存在显著差异,而传统生物标志物往往难以精准区分这些亚型。单细胞转录组测序(scRNA-seq)技术的出现为解析心脏细胞异质性提供了前所未有的分辨率,然而海量数据背后的生物学意义却如同隐藏在迷雾中的宝藏——研究人员需要更强大的工具来挖掘其中关键信息。
当前研究面临双重困境:一方面,单细胞数据存在技术噪音和生物学变异干扰;另一方面,机器学习模型虽然擅长识别复杂模式,但其"黑箱"特性阻碍了生物学机制的解读。正是为了突破这些瓶颈,发表于《Briefings in Bioinformatics》的这项研究开创性地将可解释人工智能(XAI)与单细胞转录组学相结合,提出"差异解释基因"(DXG)新概念,为心力衰竭亚型精准解码开辟了新路径。
研究人员首先构建了一个包含144,677个人类细胞和40,205个小鼠细胞的跨物种单细胞图谱,涵盖健康对照、主动脉瓣狭窄(AS)、HFrEF和HFpEF四种状态。通过精心设计的去噪自编码器(DAE)对16,545个正交基因进行降维去噪,再接入多层感知器(MLP)分类器,成功实现了物种、细胞类型和疾病状态的三重分类。特别值得关注的是,针对单细胞数据固有的类别不平衡问题,团队创新性地采用宏F1-loss作为损失函数,使模型对罕见细胞类型的识别能力显著提升。
关键技术方法包括:使用CellRanger和Seurat进行单细胞数据预处理与整合;采用超带宽算法优化DAE-MLP网络结构(编码层5000-2400-350神经元,解码层350-2200-5150神经元);利用SHAP包计算Shapley值进行特征重要性分析;通过t检验识别DXG并进行基因集富集分析(GSEA);使用独立DCM数据集进行验证研究。
研究团队开发的双模块神经网络展现出卓越的性能。DAE模块通过不对称编码-解码结构有效提取生物相关特征,MLP分类器在测试集上达到0.9528的整体F1值。特别引人注目的是,模型对疾病状态的分类准确率达97.4%,显著优于逻辑回归(66.15%)等传统方法。这种高性能为后续的生物学解释奠定了可靠基础。
通过Shapley值分析,研究不仅验证了已知生物学标记(如人类与小鼠心肌细胞中的MYH7/MYH6肌球蛋白重链转换),更发现了AIRN长链非编码RNA等新型跨物种标记。在细胞类型层面,模型准确识别出FGF12、MLIP等经典心肌细胞标记,同时揭示PCDH7、CTNNA3等新型粘附分子在心肌细胞鉴定中的重要性。
针对临床诊断挑战最大的HFpEF亚型,研究团队发现VTI1A和ABCC1等基因具有重要预测价值。VTI1A变异此前已被发现与QRS波群时长相关,而QRS延长正是HFpEF患者预后不良的标志。ABCC1(MRP1)作为膜转运蛋白,通过调控环鸟苷酸-腺苷酸(cGAMP)外排影响血管重塑过程,为理解HFpEF的免疫代谢机制提供了新视角。
最具创新性的发现在于DXG与传统差异表达基因(DEG)的比较研究。在HFpEF心肌细胞中,DXG分析识别出2,198个显著基因,与DEG方法(3,212个基因)仅有1,178个重叠。更重要的是,DXG特异的基因富集到更多心力衰竭相关通路,如肌肉细胞发育等关键生物学过程。在独立验证数据集(DCM患者队列)中,DXG方法成功复现了原始研究报道的关键靶点,且其独特基因显著富集于心脏疾病相关通路。
研究结论强调,DXG方法通过考虑基因在所有可能子集中的综合贡献,有效降低了单细胞数据稀疏性带来的噪音干扰。与仅关注表达量变化的传统方法相比,这种基于机器学习特征重要性的分析策略能够更精准地捕捉生物学相关信号。虽然当前研究存在样本量有限、计算成本较高等限制,但其所建立的框架为未来大规模细胞图谱整合分析奠定了基础。
这项工作的科学价值不仅在于提供了VTI1A等具有转化潜力的HFpEF候选生物标志物,更开创了可解释人工智能在心血管精准医疗中的应用新模式。通过将黑箱模型转化为生物学洞察发生器,研究团队成功搭建了连接计算科学与临床医学的桥梁,为复杂疾病机制解析提供了新范式。随着单细胞技术的持续发展和机器学习算法的不断进步,这种基于DXG的生物标志物发现策略有望在更多疾病领域展现其独特价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号