编辑推荐:
在空间转录组学(ST)数据分析中,区域识别面临表达与空间信息整合不足等问题。研究人员开展了 Spot2vector 计算框架的研究,该框架能有效整合信息。结果显示其在多方面表现优异,这对解析组织生物学意义重大,为 ST 研究提供有力工具。
在生命科学研究的广阔领域中,探索组织内细胞的空间分布一直是个极具挑战性却又至关重要的课题。想象一下,细胞在组织里就像一个个微小的 “居民”,它们各自有着独特的 “任务”,而它们所处的 “位置”,也就是空间分布,对这些 “任务” 的执行有着深远影响。比如,在肿瘤组织中,癌细胞的空间分布与肿瘤的生长、侵袭和转移密切相关;在大脑中,神经元的空间位置决定了神经信号的传递和大脑功能的实现。
随着科技的进步,空间转录组学(ST)技术应运而生,如同给科学家们配备了一把神奇的 “钥匙”,开启了探索组织空间异质性和细胞间通讯的大门。像 10X Visium、Stereo-seq 等前沿技术,能够在保留组织空间信息的同时,测量基因表达,让我们对组织的结构和功能有了更深入的认识。然而,这把 “钥匙” 也带来了新的难题。在分析 ST 数据时,识别具有空间连续性和表达一致性的区域(即区域识别)变得极为关键,但现有方法在整合表达和空间信息方面存在不足,无法灵活应对不同类型区域的识别。此外,ST 数据中还存在噪声,这使得从复杂的技术假象中提取有意义的信号变得更加困难。就好比在一幅精美的拼图中,有些碎片的边缘模糊不清,还混入了一些干扰的 “杂质”,给我们拼凑完整的图案带来了巨大挑战。
为了解开这些难题,浙江实验室等研究机构的研究人员踏上了探索之旅,开展了关于 Spot2vector 计算框架的研究。他们希望通过这项研究,找到一种更有效的方法来整合空间和表达信息,提高区域识别的准确性,从而更好地理解组织的生物学意义。最终,他们取得了令人瞩目的成果,相关论文发表在《Communications Biology》上。
研究人员在开展这项研究时,运用了多种关键技术方法。首先是数据预处理,他们对原始 ST 数据进行筛选,保留表达量足够的基因,并进行归一化和对数转换,同时利用 Seurat v3 方法识别高可变基因(HVGs)。接着构建空间邻近图(GS)和表达相似图(GE),分别捕捉空间和功能关系。然后,采用基于零膨胀负二项分布(ZINB)的图增强自动编码器模型,该模型由图编码器(结合图卷积网络GCN和图注意力网络GAT)和多层感知器(MLP)解码器组成。最后,使用无监督聚类算法(如 “mclust” 算法)对数据进行聚类分析 。
下面来看看具体的研究结果:
- Spot2vector 的总体概述:Spot2vector 利用基于 ZINB 的图增强自动编码器模型,对 ST 数据进行基本预处理后,构建空间图和表达图,通过两个独立的图编码器生成互补的点嵌入,再用可调参数λ线性组合得到低维表示。MLP 解码器输出 ZINB 分布的参数,用于解释数据生成机制和去噪。在推理过程中,λ还能进一步调整,以灵活整合两种信息,其输出可用于多种下游分析。
- Spot2vector 在区域识别方面表现卓越:研究人员将 Spot2vector 应用于多个有注释区域标签的 ST 数据集,与六种先进方法对比。在所有测试数据集中,Spot2vector 区域识别性能优异。例如在人类背外侧前额叶皮层(DLPFC)数据集和小鼠大脑 10X Visium 数据集上,它能准确识别区域,保持空间层次结构,而其他方法存在不同程度的缺陷。
- Spot2vector 适应不同注释,实现准确的区域和细胞类型聚类:同一 ST 数据集可能有多种注释,现有方法通常只能在特定标注范式下表现良好。而 Spot2vector 通过调整λinfer的值,能适应不同注释,在基于细胞类型注释和区域注释的聚类任务中都表现出色,准确预测细胞类型分布和区域组成。
- Spot2vector 实现空间和表达信息的灵活整合:在小鼠器官发生时空转录组图谱(MOSTA)数据集上,Spot2vector 能独特识别关键区域。调整λinfer可改变信息整合方式,实现灵活聚类。同时,它还能通过 ZINB 模块对表达数据去噪,使空间可变基因(SVGs)的表达模式更显著、更清晰。
- Spot2vector 在乳腺癌研究中识别出有生物学意义的空间亚区域:在人类乳腺癌 10X Visium 数据集上,Spot2vector 识别准确性优于其他方法。它将原区域细分,通过差异表达(DE)分析确定了各亚区域的标记基因,揭示了亚区域在肿瘤微环境中的独特生物学作用。此外,Spot2vector 去噪增强了标记基因的空间表达模式,生存分析也证实了其生物学解释的合理性。
- Spot2vector 通过有效去噪增强空间基因表达模式:与其他三种去噪方法对比,Spot2vector 在增强标记基因显著性和恢复空间基因表达模式方面表现更优。通过计算 Ripley’s K 和 L 曲线发现,Spot2vector 能恢复最清晰的空间基因表达模式。
在研究结论和讨论部分,Spot2vector 展现出了强大的优势。它有效解决了 ST 数据区域识别的难题,平衡了空间连续性和表达相似性这两个相互冲突的目标。通过可调参数,研究人员能根据具体数据集和研究问题进行定制化分析。其去噪能力不仅提高了聚类性能,还帮助识别空间可变基因,深入了解生物过程。此外,L1 正则化和 GCN 与 GAT 的结合,提高了区域识别准确性和计算效率。不过,Spot2vector 也有提升空间,如自动确定超参数λinfer,探索动态加权机制,以及纳入多组学信息等。总体而言,Spot2vector 为 ST 研究提供了强大的工具,有助于深入理解组织架构和疾病病理,推动空间转录组学在生物医学研究中的应用,为未来的生命科学探索开辟了新的道路。