scMultiMap:单细胞多模态数据助力细胞类型特异性增强子 - 基因对精准映射

《Nature Communications》:

【字体: 时间:2025年04月27日 来源:Nature Communications

编辑推荐:

  在解析全基因组关联研究(GWAS)变异功能机制时,映射疾病相关细胞类型中的增强子和靶基因至关重要。研究人员开展了利用单细胞多模态数据推断增强子 - 基因对的研究,开发了 scMultiMap 方法。结果显示其在多方面性能优异,有助于探究疾病机制,意义重大。

  近二十年来,全基因组关联研究(GWAS)取得了显著进展,发现了大量与复杂性状和疾病相关的遗传变异。然而,超过 90% 的这些变异位于基因组的非编码区域,其致病机制大多未知。越来越多的证据表明,GWAS 变异通过改变疾病相关细胞类型中的基因调控机制来影响疾病风险。因此,绘制增强子(一类主要的基因调控元件)及其靶基因的图谱,对于揭示 GWAS 变异在特定细胞环境中的功能具有重要意义。
目前,大多数相关分析使用的是批量组织数据,这种数据可能无法捕捉增强子高度细胞类型特异性的特征;或者使用细胞系数据,而这些数据可能无法准确反映原代细胞类型和患病个体细胞的生物学特性。还有一些分析利用单一模态的表观遗传数据检测细胞类型特异性增强子,但由于缺乏基因表达测量数据,通常无法识别相关的靶基因。尽管 3D 表观遗传数据和 CRISPR 筛选数据等新技术可用于绘制不同细胞类型中的增强子 - 基因对,但这些数据收集既费力又昂贵,且通常仅适用于研究细胞系。

在此背景下,单细胞多模态技术的出现为在特定细胞类型和环境中绘制增强子和靶基因图谱带来了新机遇。其中,配对的单细胞转座酶可及染色质测序(scATAC - seq)和单细胞 RNA 测序(scRNA - seq)能够在同一细胞中同时分析峰值可及性(衡量增强子活性的指标)和基因表达。然而,利用单细胞多模态数据推断峰值 - 基因关联仍面临诸多计算和分析挑战,如数据稀疏性高、测序深度变化、分析大量候选对的计算负担大等问题。

为了解决这些问题,埃默里大学(Emory University)的研究人员 Chang Su、Dongsoo Lee 等人开展了相关研究,并开发了一种名为 scMultiMap 的统计方法。该研究成果发表在《Nature Communications》上。

研究人员在研究中使用的主要关键技术方法包括:基于联合潜变量模型,同时对单细胞多模态数据中的基因计数和峰值计数进行建模;通过精心设计的加权迭代重加权最小二乘法(IRLS)进行参数估计;利用理论推导的统计检验,分析峰值 - 基因关联的显著性。研究数据来源于健康受试者的外周血单核细胞(PBMC)以及阿尔茨海默病(AD)患者和对照的死后大脑样本。

下面来看具体的研究结果:

  • scMultiMap 概述:scMultiMap 基于多元潜变量模型,在考虑测序深度和生物样本间差异的同时,通过潜在基因表达和峰值可及性水平之间的相关性来衡量峰值 - 基因关联。该模型对潜在分布不做严格的参数假设,能够灵活适应不同的分布情况。同时,研究人员开发了基于矩估计的高效计算框架,可提供相关性估计和理论上合理的分析 P 值123
  • scMultiMap 具有更好的检测准确性和计算效率:通过与现有方法 Signac 和 SCENT 对比,在评估不同方法的 I 型错误控制时,scMultiMap 的经验 I 型错误与名义水平 0.05 相符;在检测能力方面,scMultiMap 的精度 - 召回曲线下面积更大,检测能力更强;在计算成本上,scMultiMap 计算时间仅需 8.35 秒,远低于其他两种方法456
  • scMultiMap 在独立数据集上具有更高的可重复性:在 PBMC 数据集的生物重复和技术重复分析中,scMultiMap 产生的可重复峰值 - 基因对数量更多;与其他正交数据类型(如启动子捕获 Hi - C、HiChIP 和细胞类型特异性 eQTL 数据)相比,scMultiMap 识别的峰值 - 基因对一致性更高,且在研究特定细胞类型的基因调控时,能发现更显著的基因本体(GO)生物过程富集789
  • scMultiMap 识别脑细胞中生物学相关的基因调控机制:在分析 AD 患者和对照的死后大脑单细胞多模态数据时,scMultiMap 在控制 I 型错误方面表现出色,且在检测能力上优于其他方法。在与其他测量脑细胞类型中增强子和靶基因的数据集进行一致性和可重复性分析时,scMultiMap 在多种脑细胞类型中表现优异,还能识别出与已知文献相符的生物学过程101112
  • scMultiMap 将阿尔茨海默病的 GWAS 变异映射到小胶质细胞的靶基因:通过对小胶质细胞的分析,scMultiMap 在识别候选顺式调控元件方面具有强大能力,其生成的 AD 遗传力富集更高且更显著。通过比较健康对照和 AD 患者小胶质细胞中推断的候选峰值 - 基因对,发现了显著差异关联的对,并揭示了与脂质代谢相关的途径。此外,scMultiMap 还将特定的 AD GWAS 变异映射到相关靶基因,为研究这些变异的功能提供了重要线索131415

研究结论和讨论部分指出,scMultiMap 是一种利用单细胞多模态数据绘制细胞类型特异性增强子 - 基因对的新统计方法。它通过合理建模峰值计数和测序实验中的混杂因素,在检测真实增强子 - 基因对方面具有更高的统计能力,并且对因测序深度变化和生物样本间差异导致的假阳性关联具有较强的抗性。利用基于矩估计的框架和理论推导的统计检验,scMultiMap 提供了分析 P 值,计算复杂度不到现有方法的 1%。系统模拟和真实数据分析表明,scMultiMap 能更好地识别可重复且经外部验证的增强子 - 基因对,是研究细胞类型基因调控的有价值工具。与 AD GWAS 变异的综合分析表明,scMultiMap 可以为研究 GWAS 变异在疾病相关细胞类型中的调控作用提供功能见解,为下游验证生成假设,并确定潜在的治疗干预靶点。

然而,该研究也存在一定的局限性。例如,在识别增强子时,结果受限于仅使用染色质可及性数据,还需要其他数据模态(如感兴趣细胞类型的组蛋白修饰数据)来进一步验证优先考虑的增强子。此外,scMultiMap 目前无法应用于非配对的单细胞多组学数据,且当其中一种模态是 scATAC - seq 时,需要使用 DNA 片段的片段计数而非读取计数。尽管如此,随着更大规模的单细胞多模态数据收集工作的推进,scMultiMap 凭借其良好的性能,有望成为分析这些新数据、研究基因调控和阐明 GWAS 变异功能的有力工具,为生命科学和健康医学领域的研究做出重要贡献。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号