
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于可解释深度学习的扰动响应基因模式优先排序方法River及其在空间多组学中的应用
【字体: 大 中 小 】 时间:2025年07月03日 来源:Nature Communications 14.7
编辑推荐:
本研究针对空间转录组学中跨条件差异空间表达模式(DSEP)基因识别的难题,开发了可解释深度学习框架River。该技术通过双分支预测架构和事后归因策略,成功在胚胎发育、糖尿病相关精子发生和狼疮脾脏变化等模型中识别出具有生物学意义的DSEP基因,并在三阴性乳腺癌中发现与患者生存相关的空间模式。该成果为复杂实验设计下的组织动态表达分析提供了灵活可扩展的解决方案。
在生命科学研究中,空间转录组学技术的突破性进展使得在组织原位进行多基因表达谱分析成为可能。然而,随着实验数据规模从单切片扩展到多条件、多时间点的海量数据,如何系统比较不同条件下基因空间表达模式的差异成为亟待解决的关键问题。传统方法如空间变异基因(SVG)分析仅适用于单切片研究,而差异表达基因(DEG)分析则完全忽略了空间信息,这使得研究人员在分析复杂实验设计(如发育时间序列或疾病进程研究)时面临重大技术瓶颈。
针对这一挑战,复旦大学的研究团队在《Nature Communications》发表了创新性研究成果。研究者开发了名为River的可解释深度学习框架,首次将差异空间表达模式(DSEP)基因识别转化为可计算的预测任务。该方法通过独特的双分支架构(位置编码器和基因表达编码器)整合空间坐标与表达数据,并采用集成归因策略量化基因对条件差异的贡献。
关键技术方法包括:1) 基于SLAT算法的多切片空间对齐;2) 包含位置编码器和基因表达编码器的深度神经网络架构;3) 集成梯度(IG)、DeepLIFT和GradientShap三种归因方法;4) Borda计数法进行排名聚合。研究使用了小鼠胚胎发育时空数据集、糖尿病模型睾丸切片、狼疮模型脾脏组织以及三阴性乳腺癌(TNBC)患者样本等多模态空间组学数据进行验证。
研究结果部分的重要发现包括:
River概述
通过模拟实验证明River在F1分数(中位数0.59)上显著优于16种对比方法。独特的空间感知建模使其能同时检测空间和非空间变异,而表达二值化策略可专门识别纯空间模式变化。
基准分析
在精心设计的六种扰动模拟数据中,River的F1分数比次优方法Sepal提高43.9%。归因分数可视化显示River能有效区分真实DSEP基因与背景基因(p<0.05),而传统方法Sepal无此鉴别能力。
跨切片的非生物空间表达模式
在E15.5小鼠胚胎连续切片中,River筛选的Top20基因使UMAP空间细胞聚类清晰分离,而HVG基因效果较差。这些批次效应相关基因在E16.5胚胎中仍保持区分能力,并显著提升数据整合指标(NMI提高2.1倍)。
发育相关DSEP基因
分析8个小鼠胚胎发育阶段发现,River鉴定的血红蛋白Hbb家族基因呈现明显时空动态。PCA分析显示仅用Top5基因即可沿发育时间轴有序分离细胞(PC1解释度87%)。二值化分析独特识别出与趋化性和皮肤形态发生相关的空间模式转换基因。
疾病应用
在糖尿病模型中,River筛选的Prm1/2等基因显著富集于糖酵解和男性不育通路;在狼疮脾脏中鉴定出MHC II类分子等已知疾病相关蛋白;TNBC分析发现Vimentin、CD45等蛋白的空间分布模式可预测患者亚型,在独立验证集保持85.7%分类准确率。
研究结论指出,River首次系统解决了多条件空间组学比较的核心挑战:1) 提出DSEP新概念,超越传统SVG/DEG分析的局限;2) 非图结构的空间建模使其可处理300万细胞级数据;3) 模块化设计支持转录组和蛋白质组等多模态数据。该技术为发育生物学和疾病机制研究提供了全新分析维度,特别在揭示肿瘤微环境时空异质性方面具有重要临床价值。讨论部分强调,未来通过结合对比学习模块或单细胞基础模型,可进一步提升跨平台数据的比较能力,为构建人类细胞图谱提供关键技术支撑。
生物通微信公众号
知名企业招聘