MuCST:多模态对比学习助力空间转录组数据整合与解析

【字体: 时间:2025年03月14日 来源:Genome Medicine 10.4

编辑推荐:

  研究针对空间转录组数据整合难题,开展 MuCST 算法研究,有效提升数据解析能力,意义重大。

  ## MuCST:突破空间转录组数据整合困境的新利器
在生命科学的微观世界里,细胞就像一个个神秘的 “小宇宙”,它们的结构、位置和功能一直是科学家们探索的焦点。传统的显微镜技术就像给细胞拍 “照片”,只能观察到细胞的形态,却无法深入了解它们在分子层面的 “秘密”。而单细胞 RNA 测序(scRNA-seq)技术虽然能揭示细胞的基因表达信息,但却 “抹去” 了细胞在组织中的空间位置信息,这对于理解细胞的功能和组织的奥秘来说,无疑是一种遗憾。
空间转录组学(Spatial Transcriptomics,ST)技术的出现,宛如一道曙光,它能够同时获取细胞的形态、转录信息以及空间坐标,为我们打开了一扇全新的大门,让我们有望窥探到组织的真实面貌。然而,这扇大门背后却隐藏着诸多挑战。由于空间转录组数据具有高度的异质性,不同模态的数据就像来自不同星球的 “居民”,难以协调统一。而且,实验过程中引入的噪声也给数据的分析带来了很大的困难,就像在一幅精美的画卷上蒙上了一层灰尘,使得我们难以看清其中的细节。

为了攻克这些难题,来自西安电子科技大学、广东省人民医院等机构的研究人员展开了深入的研究。他们提出了一种名为 MuCST(Multi-modal Contrastive learning for the integration of Spatially resolved Transcriptomics)的算法,旨在整合组织学图像和空间转录组数据,为生命科学研究提供更强大的工具。这项研究成果发表在《Genome Medicine》杂志上,引起了广泛的关注。

研究方法


研究人员在研究过程中运用了多种关键技术方法。首先,他们收集了多种模拟和生物数据集,包括人类背外侧前额叶皮质、小鼠大脑、人类肠道和多种人类癌症等数据集。在数据预处理阶段,通过去除组织区域外的点、对组织学图像进行切片处理以及对基因表达数据进行标准化等操作,为后续分析奠定基础。接着,利用 K 近邻(KNN)算法构建细胞网络,并通过余弦相似度计算边的权重。此外,研究人员还采用了图卷积网络(GCN)、对比学习等技术,分别学习细胞的形态学特征和转录特征,进而融合这些特征进行下游分析。

研究结果


  1. MuCST 在模拟数据上的卓越表现:研究人员利用模拟的空间转录组数据对 MuCST 进行评估。结果显示,在学习多模态数据的判别特征方面,MuCST 表现出色,其调整兰德指数(Adjusted Rand Index,ARI)比其他算法更高。即使在数据质量下降的情况下,MuCST 也能保持较高的准确性,有效避免受到不同模态数据质量的干扰,展现出了良好的鲁棒性。
  2. MuCST 显著提升空间域识别性能:通过对人类背外侧前额叶皮质(DLPFC)、小鼠大脑和人类肠道等数据集的分析,发现 MuCST 在识别空间域方面比其他算法更准确。例如,在 DLPFC 数据集的切片 151673 中,MuCST 的 ARI 达到 0.641,而其他基线算法表现较差。此外,MuCST 还能精确区分大脑中的关键区域,如 Layer 6 和白质(WM),这是许多其他算法无法做到的。在小鼠大脑和人类肠道数据集中,MuCST 同样表现优异,能够准确识别出复杂的空间结构和不同的组织区域。
  3. MuCST 精准揭示肿瘤异质性:研究人员使用多个癌症相关数据集验证 MuCST 在揭示肿瘤异质性方面的能力。在人类乳腺癌数据集中,MuCST 识别出的癌症相关空间域与手动注释高度一致(ARI = 0.586),能够精确区分不同的肿瘤形态类型,如浸润性导管癌(IDC)、原位癌(DCIS/LCIS)等。在胰腺癌数据集上,MuCST 也能准确识别出癌症相关区域,而其他基线算法则无法区分癌症和非癌症区域。这些结果表明,MuCST 能够从宏观和微观层面有效解析肿瘤异质性。
  4. MuCST 有效去除数据噪声:空间转录组数据常常受到噪声的干扰,而 MuCST 通过利用多模态对比学习,能够精确地去除噪声。在对 DLPFC 数据集的处理中,MuCST 使得空间域识别的 ARI 从 0.181 提升到 0.480,显著增强了特征的判别能力。同时,在乳腺癌数据集上也得到了类似的结果,证明了 MuCST 在降噪方面的有效性,为下游分析提供了更可靠的数据。
  5. MuCST 适用于多种平台数据:研究人员还验证了 MuCST 对不同平台生成的空间转录组数据的适用性。无论是基于成像的 STARmap 平台,还是基于下一代测序的 Slide-seq V2、Stereo-seq 等平台,MuCST 都能取得较好的效果。在小鼠初级视觉皮层数据集(STARmap)中,MuCST 的 ARI 达到 0.652,优于许多其他算法,表明它能够有效整合不同平台的数据,识别出相关的解剖区域。

研究结论与讨论


MuCST 算法为解决空间转录组数据整合的难题提供了一种创新的解决方案。它通过多模态对比学习,不仅能够有效整合组织学图像和空间转录组数据,还能减轻多模态数据的噪声和异质性影响,精确识别空间域,揭示肿瘤异质性,并对数据进行降噪处理。这使得研究人员能够更深入地理解组织的结构和功能,为疾病的诊断和治疗提供更有力的支持。

尽管 MuCST 在现有研究中表现出色,但研究人员也指出,该算法在整合其他空间组学数据(如 Spatial-ATAC-seq 数据)方面的能力还有待进一步探索。未来,他们将致力于整合多组学数据,拓展 MuCST 在临床应用中的潜力,例如帮助临床医生制定更精准的治疗方案。总之,MuCST 的出现为生命科学和健康医学领域带来了新的希望和机遇,有望推动相关领域的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号