INSTINCT:突破空间染色质可及性测序数据整合难题,解锁组织奥秘

【字体: 时间:2025年02月02日 来源:Nature Communications

编辑推荐:

  空间染色质可及性测序(spATAC-seq)数据整合缺乏有效方法,研究人员开展 INSTINCT 方法研究。结果显示,该方法能高效整合数据、消除噪声和批次效应,在多方面分析表现优异,为研究组织调控机制提供有力工具。

  在生命科学研究领域,染色质可及性是一个关键的研究方向。它反映了转录因子等反式作用因子与顺式调控元件在 DNA 复制或转录过程中结合的难易程度。随着单细胞表观基因组技术的发展,单细胞染色质可及性测序(scATAC-seq)数据大量涌现,为研究细胞间的异质性提供了重要依据。然而,scATAC-seq 数据无法提供细胞的空间信息,而大多数复杂的调控过程依赖于组织微环境中细胞间的物理邻近性和配体 - 受体对的传递。这就如同拼图缺少了关键的部分,使得科学家们难以通过 scATAC-seq 数据全面了解组织和器官的奥秘。
为了解决这一问题,空间组学技术应运而生,其中空间染色质可及性测序(spATAC-seq)技术备受关注。它能够在提供染色质可及性信息的同时,给出每个检测位点的空间坐标,让研究人员可以将空间信息与表观基因组数据相结合,深入剖析组织和器官的结构与功能。但随着 spATAC-seq 数据集的不断增加,如何对多个样本进行联合比较分析成为了新的挑战。一方面,现有的单细胞组学和空间组学数据整合方法并不适用于 spATAC-seq 数据,直接应用可能会导致宝贵的空间信息被浪费,无法准确识别有意义的空间结构;另一方面,spATAC-seq 数据具有高维、稀疏、数据缺失率高以及噪声和批次效应复杂等特点,这些都给数据的整合和分析带来了极大的困难。

在这样的背景下,清华大学的研究人员开展了一项具有重要意义的研究,旨在开发一种专门用于多样本 spATAC-seq 数据整合的方法。他们成功提出了 INSTINCT(Multi-sample INtegration of Spatial chromaTIN accessibility sequencing data via stochastiC domain Translation)方法,相关研究成果发表在《Nature Communications》上。

研究人员在开展研究时,用到了几个主要关键的技术方法。首先是数据预处理,包括对多个样本进行峰值合并、将读计数矩阵转换为片段计数矩阵、过滤低质量数据以及进行主成分分析(PCA)等操作。其次,构建空间邻居图,利用空间坐标矩阵计算点之间的距离,确定邻居关系,以此充分利用 spATAC-seq 数据的空间信息。最后,采用 INSTINCT 模型,该模型包含编码器、噪声发生器、解码器和判别器,通过两阶段训练,实现对数据的有效整合和批次效应的消除。

下面来看看具体的研究结果:

  • INSTINCT 概述:INSTINCT 基于主成分分析(PCA),采用两阶段策略。第一阶段,模型由图注意力网络(GAT)编码器、多层感知器(MLP)解码器和判别器组成,将多个样本的预处理数据投影到共享潜在空间。第二阶段,加入噪声发生器,通过随机域转换过程实现批次校正,最终得到无噪声和批次效应的低维表示,用于后续分析。
  • INSTINCT 在综合模拟场景中表现优异且稳健:研究人员通过模拟实验验证 INSTINCT 的性能。他们生成多个具有不同批次效应的模拟 spATAC-seq 数据集,在多个场景下与多种基线方法进行比较。结果表明,INSTINCT 在聚类性能、表示质量和批次校正等方面表现出色,能够有效去除噪声和批次效应,准确捕捉生物变异。
  • INSTINCT 整合不同发育阶段的多个样本:将 INSTINCT 应用于小鼠大脑数据集,该数据集包含不同发育阶段的多个切片。结果显示,INSTINCT 在整合数据时,不仅能有效去除批次效应,还能准确区分主要类别和保留稀有斑点类型,在空间域识别任务中表现优异,相比其他方法更能准确识别具有实际意义的空间域。
  • INSTINCT 获取不同尺度样本的联合表示:利用 INSTINCT 整合不同组织尺度的小鼠大脑样本,聚类结果恢复了真实的组织结构,识别出多个具有实际意义的空间域。通过分析差异表达基因(DEGs),进一步证明 INSTINCT 能有效区分不同的斑点类型,突出生物变异。
  • INSTINCT 促进全小鼠生物体的综合分析:在小鼠胚胎数据集上应用 INSTINCT,成功混合不同样本的斑点,识别出多个生物空间域。通过基序富集分析、基因评分矩阵生成和基因本体(GO)分析等,揭示了不同聚类的生物学特征,表明 INSTINCT 能准确捕捉潜在的生物变异,避免过度混合不同的斑点类型。
  • INSTINCT 通过交叉样本注释揭示生物学意义:目前缺乏针对 spATAC-seq 数据的计算注释算法,INSTINCT 填补了这一空白。在模拟数据集和真实数据集上的实验表明,INSTINCT 能有效进行交叉样本注释,揭示注释区域的生物学意义,为研究生物特征和病理学提供指导。
  • 消融研究验证 INSTINCT 机制的有效性:通过对 INSTINCT 模型的损失函数、结构和特定策略进行消融实验,验证了模型中各个机制的有效性,包括损失函数对模型性能的影响、判别器和噪声发生器模块的重要性以及防止错误混合斑点类型策略的作用等。

在研究结论和讨论部分,INSTINCT 作为第一种能够有效整合 spATAC-seq 数据的方法,在多个任务中展现出优越性。它充分利用空间信息,能识别具有更强空间连续性的组织区域,通过随机域转换有效提取噪声和批次效应,突出生物变异。此外,INSTINCT 还可用于交叉样本注释,揭示生物学意义。然而,INSTINCT 也存在一些局限性,例如它不直接对数据分布进行建模,每次整合任务都需要训练特定模型,内存使用相对较高等。针对这些局限,研究人员也提出了未来的优化方向,如探索高效的细胞类型分解方法、构建样本间的有效关联、调整模型结构以适应不同类型的数据等。

总的来说,INSTINCT 的出现为 spATAC-seq 数据的整合和分析提供了重要的工具,为生命科学研究打开了新的大门,尽管它还有待进一步完善,但无疑为后续研究奠定了坚实的基础,有望推动相关领域取得更多重要突破。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号