超图驱动的空间多模态融合技术:实现精准空间域识别与肿瘤微环境解码
《Communications Biology》:Hypergraph-driven spatial multimodal fusion for precise domain delineation and tumor microenvironment decoding
【字体:
大
中
小
】
时间:2025年12月02日
来源:Communications Biology 5.1
编辑推荐:
本研究针对空间转录组数据分析中空间域识别精度不足的难题,开发了超图驱动的多模态融合工具HAST。该工具创新性地整合基因表达、空间坐标和组织学特征构建局部超图,通过动态加权融合和超图卷积网络学习判别性表征,在多个数据集上显著提升空间域识别精度,为肿瘤微环境研究提供了强有力的分析工具。
在生物医学研究领域,空间转录组学(Spatial Transcriptomics, ST)技术的出现彻底改变了我们对组织结构和功能的理解。这项技术能够同时获取基因表达信息和空间位置数据,为解析复杂组织微环境提供了前所未有的视角。然而,如何准确识别组织中的空间功能域(spatial domains)——这些区域通常对应着肿瘤微环境或胚胎发育的关键区域——已成为当前研究的重点和难点。
传统的分析方法主要依赖基因表达相似性进行聚类,往往忽视了宝贵的空间位置信息。尽管后续发展的图神经网络方法通过结合基因表达和空间坐标取得了一定进展,但这些方法在肿瘤等高度异质性组织中表现不佳。究其原因,现有方法大多基于简单的成对点对点关系建模,难以捕捉真实组织中存在的复杂"多对多"关系。例如,在肿瘤微环境中,一个位点可能同时与多个非相邻位点共享关键的生物学功能,这种高阶关联无法通过传统的图结构有效表征。
针对这一挑战,重庆大学曾远松团队在《Communications Biology》上发表了题为"Hypergraph-driven spatial multimodal fusion for precise domain delineation and tumor microenvironment decoding"的研究论文。该研究开发了HAST(Hypergraph Association Spatial Transcriptomic)框架,通过超图(hypergraph)结构创新性地解决了空间转录组数据分析中的关键技术瓶颈。
研究人员设计了一套完整的计算流程,首先从基因表达、空间坐标和组织学图像三个模态分别构建局部超图。基因表达相似性通过皮尔逊相关系数计算,空间邻近性基于欧几里得距离,而组织形态学特征则使用预训练的Vision Transformer从H&E染色图像中提取。每个位点与其最相似的k个邻居构成超边(hyperedge),形成三个模态特定的超图结构。
关键技术方法包括:使用超图卷积网络(HGCN)处理多模态超图结构,采用自适应加权融合算法动态整合三个模态的局部超图,通过自监督对比学习增强表征的判别性,利用mclust算法进行空间域聚类,并在多个公共数据集(包括人背外侧前额叶皮层、小鼠脑组织、人乳腺癌等)上进行系统验证。
空间域识别性能在DLPFC数据集上的表现
在人背外侧前额叶皮层(DLPFC)数据集的评估中,HAST展现出卓越的聚类性能。该数据集包含12个组织切片,每个切片都有手工标注的白质和多个皮质层。如图2a所示,HAST在调整兰德指数(ARI)、Fowlkes-Mallows指数(FMI)和标准化互信息(NMI)三个指标上均优于现有方法,平均得分分别达到0.63、0.72和0.70,相比表现次优的GraphST方法分别提升了15%、9%和6%。
特别在切片#151672上,HAST取得了最佳性能(ARI=0.70,FMI=0.78)。可视化结果显示,HAST生成的聚类边界与手工标注高度一致,而其他方法如Giotto和Seurat存在明显的簇间混合现象,BayesSpace虽略有改善但仍面临类间混合问题。空间可变基因(Spatially Variable Genes, SVGs)分析进一步验证了HAST的生物学意义,如PCP4、MBP和HPCAL1等基因在特定空间域中呈现明显富集。
小鼠脑组织数据的独立与整合分析
在小鼠脑组织数据集中,HAST同样表现出色。对于有手工标注的前部切片,HAST准确识别了嗅球和背侧皮层等关键区域,ARI和FMI分别达到0.50和0.52,较第二名的GraphST提升22%。对于无标注的后部切片,HAST成功识别了小脑皮质和氨角等结构,与Allen小鼠脑图谱高度吻合。
水平整合分析显示,HAST能够有效整合前部和后部切片数据,准确识别大脑皮层和海马等结构,轮廓系数(SC)和Davies-Bouldin指数(DB)分别达到0.26和1.23,优于所有基线方法。UMAP可视化表明,两个切片的共同区域重叠良好,而独特区域保持区分,反映了切片间的功能差异。
人类乳腺癌肿瘤微环境解析
在人类乳腺癌数据集的分析中,HAST的聚类结果与手工标注最为接近,ARI和FMI分别达到0.60和0.63,较第二名的STAGATE提升15%。值得注意的是,HAST提供了比手工标注更精细的域识别结果。
HAST将"Healthy_1"区域细分为Cluster 4和Cluster 16。差异表达基因分析显示,Cluster 4中DCN、VIM和COL1A2等基因显著上调,这些基因在癌症相关成纤维细胞(CAFs)中发挥重要作用。CAF标记基因(TIMP1、COL1A2、DCN)在Cluster 4中表达上调(log2FC>0.5,p值<0.05),而在Cluster 16中未观察到类似现象。基因本体(GO)富集分析进一步证实,Cluster 4的差异表达基因显著富集于转化生长因子β(TGF-β)结合、胶原-containing extracellular matrix和extracellular matrix organization等与癌症相关的生物学过程。
HER2+数据集、斑马鱼黑色素瘤数据集和Visium HD数据集的性能
在HER2+乳腺癌数据集上,HAST在8个有手工标注的切片上均优于其他方法。在斑马鱼黑色素瘤数据集的分析中,HAST准确识别了肌肉与癌症之间的界面区域,这些区域显示出活跃的转录和翻译活动。在高分辨率的Visium HD数据集上,HAST表现出更好的空间边界识别能力和域结构一致性,证明了其在超高分辨率数据上的适用性。
消融实验验证模型组件贡献
消融实验系统评估了HAST各个组件的贡献。对比学习损失的去除导致平均ARI下降20.3%,而单独添加LSCL和LC_SCL分别带来3.8%和6.9%的性能提升。网络结构方面,逐步加入不同超图模块使平均ARI提升2.5%-5.7%,证实了多模态融合的有效性。单模态测试表明,基于组织学特征和基因相关性的超图构建优于单纯使用空间位置信息。
本研究开发的HAST框架代表了空间转录组数据分析方法的重要进展。通过创新性地使用超图结构整合多模态信息,HAST解决了现有方法在复杂组织(如肿瘤微环境)中识别空间域的局限性。其核心优势在于能够捕捉生物学中固有的高阶关联,而不仅仅是简单的成对关系。
HAST在多个数据集上的卓越表现证明了其在实际应用中的价值。特别是在肿瘤微环境分析中,HAST不仅提供了更精确的空间域划分,还揭示了与癌症进展相关的关键生物学特征,如CAF富集区域和肿瘤-基质界面特征。这些发现对于理解肿瘤异质性和开发新的治疗策略具有重要意义。
未来工作中,提高计算效率、扩展多组学数据整合能力以及开发3D空间域识别功能将是重要方向。随着空间转录组技术的快速发展和广泛应用,HAST为代表的计算方法将在推动精准医学和基础生物医学研究中发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号