基于松弛边际约束最优传输(OT-RMC)构建细胞类型分类系统:多样本同时比对与细胞簇层级结构解析
【字体:
大
中
小
】
时间:2025年10月05日
来源:Statistical Analysis and Data Mining: An ASA Data Science Journal
编辑推荐:
本综述系统介绍了基于松弛边际约束最优传输(OT-RMC)技术构建细胞类型分类系统(MOTT)的创新方法。该方法通过多样本同时比对(SA)策略,有效解决了单细胞RNA测序(scRNA-seq)数据中细胞簇比例差异大、新型细胞类型识别困难等核心问题。实验证明,该系统不仅能实现高精度细胞类型注释,更能提取样本级特征进行准确分类,为下游分析提供可靠基础。
单细胞数据的快速涌现促进了细胞水平上多种生物条件的研究。聚类分析已被广泛应用于识别细胞类型,以更简洁的形式捕捉原始数据的基本模式。细胞聚类分析的一个挑战是匹配来自不同来源或条件的数据集中提取的簇。许多现有算法在建立两个样本获得的簇之间的对应关系时,无法识别仅存在于其中一个样本中的新细胞类型。此外,当存在两个以上样本时,同时跨所有样本对齐簇比执行成对对齐更有优势。我们的方法旨在为所有样本的细胞簇构建一个分类系统,以更好地注释这些簇并有效提取下游分析的特征。通过结合松弛边际约束的最优传输(OT-RMC)技术和跨多个样本的簇同时对齐,开发了一个构建细胞类型分类系统的新系统。OT-RMC使我们能够解决样本间簇比例变化很大或某些簇并非出现在所有样本中的挑战。在20多个数据集上的实验表明,该新系统构建的分类系统可以产生高度准确的细胞类型注释。此外,基于分类系统提取的样本级特征可实现样本的准确分类。
许多最新技术,如流式细胞术和飞行时间细胞术(CyTOF),导致了单细胞数据的大量积累。特别是,单细胞RNA测序数据(scRNA-seq)从2009年考虑单个细胞扩展到2017年考虑数百万个细胞。单细胞技术的进步允许测量单个细胞的全局基因表达谱,并能够检查批量测序数据中无法获得的复杂样本中的异质细胞群体。
scRNA-seq工具测量的许多基因是非信息性的,并使下游数据分析复杂化。scRNA-seq数据的一般工作流程包括减少基因数量、创建用于可视化的流形表示、通过无监督聚类识别细胞类型以及通过差异表达分析找到细胞类型的表达特征。虽然无监督聚类对于发现新的细胞类型以及未知的细胞-基因关系至关重要,但手动注释这些细胞簇既耗时又主观。细胞分类的一个重要原因是样本中每种细胞类型的比例以及相关的差异表达标记基因可以帮助预测样本的表型类别。示例表型包括对治疗癌症药物的不同耐药水平或对疫苗的不同反应、糖尿病预后和其他疾病。
接下来,我们介绍一些有用的术语。我们考虑的数据包含多个(通常超过两个)样本。每个样本本身是一个包含许多细胞测量值的数据集。具体来说,一个细胞对应于样本中的一个数据点,基因的表达水平是为任何细胞测量的特征。所有样本中的所有细胞都考虑相同的基因集合,即特征。然而,某些细胞类型(即特定的细胞组)可能存在于一个样本中,但不存在于其他样本中。通常,样本来自对单一生物体或同一物种内不同生物体的多次实验。任何样本中的细胞被分组为簇,这些簇对应于不同的细胞类型,但这些类型可能尚未被识别。
我们的目标是为所有样本中衍生的簇构建一个分类系统。具体来说,这个分类系统将是簇的层次化组织,识别哪些簇对应于相同的细胞类型,并说明不同细胞类型在相似性方面的关系。由于簇通常是单独为每个样本生成的,它们的标签在样本之间并不连贯。我们在这里研究的核心问题是如何建立一个分类系统以确保细胞簇的一致识别。
该分类系统具有多种用途。首先,一旦跨样本形成分类系统,如果一个样本包含手动标记的细胞类型,则其他样本中未标记的细胞簇可以用已知的细胞类型进行分类。其次,分类系统可以帮助我们进行下游分析。考虑根据表型条件对样本进行分类,例如健康患者与患病患者。通过为不同样本提供连贯的簇标签,我们可以导出簇级特征(如簇比例)并使用它们对样本进行分类。我们强调的假设是样本不集中进行同时处理。我们的算法仅对不同样本独立提取的簇的特征(如簇比例和簇级平均特征)进行操作,而不是原始数据。这种假设排除了跨样本的批次效应去除(这通常需要集中)以及跨所有样本的数据点的同步聚类。避免集中分析的原因是多方面的。隐私问题或数据量过大可能禁止集中。此外,不同样本中的簇通常由专家研究人员手动生成,理解跨样本簇之间的关系可能是主要目标。在这种情况下,集中样本来一起聚类所有数据点可能不仅不必要而且毫无意义。虽然批次效应去除有助于构建分类系统,并且我们的算法对批次变化表现出鲁棒性,但新算法既不是设计用于去除批次效应,也不是在相同框架下运行。
从scRNA-seq数据确定细胞类型的任务通常需要几个周期的分组、子分组和簇合并。这个过程严重依赖于主题专家的手动输入,他们必须平衡多元数据无监督聚类提出的结果。尽管努力简化这一过程,手动创建的细胞类型继续作为大多数应用的基准。自动将细胞类型标签分配给簇的常见方法是利用具有专家验证的真实标签的参考数据。这些参考簇与未标记的簇进行匹配。有几种统计工具通过量化被比较簇中细胞基因表达谱的相似性来匹配不同样本之间的细胞簇。然而,这种方法有几个缺点并对后续生物学解释产生负面影响。值得注意的是,许多细胞类型的存在显著降低了分类工具的性能。此外,分类性能对参考集的选择敏感。最后,找到一个包含目标数据集中存在的所有细胞类型的代表性注释训练集通常是一个挑战。
在已发表的scRNA-seq数据中,簇的细胞标签通常不可用。一项研究发现,72个数据集中近一半没有包含推断的细胞类型。然而,即使细胞簇的生物学性质未知,跨样本分配给簇的连贯标签也非常有用。一致的标签可以帮助跨样本合并簇,并且整合的簇可以更好地指示标记基因。这些标记基因通常基于特定的计算聚类方法选择,并用于注释簇。
即使存在注释的参考样本,自动注释方法的成功也有限。代表相同或相似细胞类型的簇可能具有暗示否则的注释。错误标记可能是由丢失现象(“一个基因在一个细胞中以中等甚至高表达水平被观察到,但在另一个细胞中未被检测到”)以及批次效应引起的。据我们所知,尚未开发出自动工具来构建超过两个样本的簇分类系统。相反,参考样本中的簇标签用于以成对方式注释其他样本中的簇。众所周知,与批量细胞数据相比,scRNA-seq数据由于生物学和技术原因具有更高水平的噪声。因此,通常没有一个样本可以作为注释细胞簇的良好参考。我们期望基于所有样本构建簇分类系统的方法(与一对样本相比)可以潜在地减轻噪声的影响,从而产生更准确的簇注释,这一优势已通过我们的实验得到证实。
通过同时处理所有样本,我们提出的方法在不使用注释参考样本的情况下创建了簇的层次结构。我们的方法结合了最先进的最优传输(OT)技术和层次聚类(也称为树状图聚类)。ClusterMap是一个现有方法,具有与我们相似的逻辑框架,它也考虑具有预定义簇的多个数据集。使用标记基因,该方法基于通过Jaccard距离测量的簇相似性创建簇的层次结构。这种方法的主要缺点是在实施算法之前需要每个数据集的标记基因。标记基因对于注释属于某些主要细胞类型的细胞很有用。不同的标记基因数据库通常为相同的细胞群体列出不同的标记基因集。此外,相同的标记基因经常出现在各种细胞簇中,并可能代表不同的细胞类型。最后,确定簇标记基因的自动方法经常存在分歧,并受到scRNA-seq数据噪声的影响。
OT越来越多地用于机器学习和单细胞数据分析。尽管OT是一个突出的匹配框架,但还有其他范式,例如QFMatch使用的逐步合并(类似于树状图的形成方式)和flowMatch使用的二分图分区(BGP)。标准OT的公式包含两个边际约束,这反映了匹配簇的比例在所有数据集中固定( modulo 观察中的随机性)的隐含假设。这个假设对于scRNA-seq数据是不合适的,因为一种或多种细胞类型可能存在于某些样本中,但不存在于其他样本中。参考文献提出了一种新的公式,即具有松弛边际约束的最优传输(OT-RMC),通过引入间隙变量来松弛边际约束。他们已经证明OT对于各种匹配问题过于 rigid。我们采用OT-RMC作为核心技术,并开发了一种新算法,该算法构建一个由所有样本的簇组成的分类树。为了进行比较,我们还将试验部分最优传输(POT),它通过仅传输总质量的一部分来松弛标准OT。
一种基于OT的集成聚类算法OTA被提出,用于整合聚类结果并评估其不确定性。我们的方法相对于OTA的一个关键进步是它能够执行跨多个样本的同时对齐,而OTA仅执行成对对齐。成对方法通常依赖于选择具有已知真实标签的参考样本,但识别这样的样本通常并非易事。在许多情况下,参考样本可能缺乏标记剩余样本所需的全部相关细胞类型——实际上,可能根本不存在合适的标记参考。这个挑战在我们考虑的应用中尤其突出和重要,比OTA的原始背景更重要。我们的方法通过联合考虑所有样本来规避这些限制。它不需要参考;相反,它操作来自不同样本的聚类细胞,即使这些簇缺乏有意义的标签。此外,使用OT-RMC(而不是OT)作为子程序来计算簇之间的相异度分数。新颖的贡献在于使用这些分数构建树状图,从而实现灵活的分辨率以将簇分组为元簇。一个自然的分辨率水平对应于跨样本的不同细胞类型的总数,允许在缺乏真实情况的情况下跨数据集进行一致标记。
3.1 Framework for Constructing Taxonomy
考虑一个样本集合,每个样本包含一组细胞的测量值。具体来说,样本,其中是细胞 wise 特征向量的维度。假设每个样本已被聚类。表示样本生成的簇为,其中包含分配给第k个簇的点(即细胞)。我们将称为细胞簇或简称为簇(如果上下文清楚)。注意。表示。
我们解决的问题是当来自不同样本的簇没有被一致标记时,为所有样本中的所有簇构建一个分类系统。不一致的标记可能发生在各种情况下,最简单的是标签排列。然而,在实践中,一个样本中的一个簇可能会在另一个样本中分裂成多个簇,或者相反,多个簇可能合并成一个。此外,可能会出现一个新的簇。而且,由于样本变异和聚类的细微差别,确定跨样本簇之间的关系通常具有挑战性。我们提出了一个系统来构建一个分类树,揭示不同样本中哪些簇代表相同的细胞类型,以及细胞类型如何在相似性层次结构中相互关联。我们采用OT和树状图聚类技术,以有效利用一个样本中所有簇和跨所有样本的信息。我们将该系统称为多样本OT分类系统(MOTT)。图1提供了MOTT的示意图流程图。
MOTT构建的分类系统可以帮助我们理解未手动注释的细胞类型之间的关系,并允许跨样本对细胞簇进行连贯标记,这对下游分析很有价值。接下来,我们描述MOTT系统中的主要组件,如图1所示。
- 1.对于每对样本和,,计算匹配簇和的成本,表示为,,。我们将包含条目的矩阵称为成本矩阵,记为。应用OT-RMC基于输入成本矩阵计算大小的匹配权重矩阵,记为。我们只需要计算,,因为。权重表示样本中的簇与样本中的簇的匹配程度,较高的值对应于更强的匹配。然后我们通过执行行和列归一化来计算归一化版本,记为,然后计算两个矩阵的平均值。我们将中的匹配权重视为簇之间的相似性分数。OT-RMC的详细公式在下一小节中解释。
- 2.通过平铺,,,形成矩阵。设。是一个矩阵,包含作为其第(i, j)块。我们将称为整体簇相似性矩阵,它包含跨所有样本的任何一对簇之间的相似性分数。为了将相似性矩阵转换为整体簇距离矩阵,我们应用逐项变换,然后通过将每个条目除以最大条目来标准化矩阵。非线性变换放大了接近0的匹配权重之间的差异(这种情况经常发生),从而使我们能够更好地捕捉簇距离。对于任何小于的条目(其中是数据集中最小的簇比例),我们不应用变换,而是将该条目设置为。这种修改确保我们永远不会遇到,并减轻OT解中精度误差的影响。
- 3.我们使用Ward链接方法应用树状图聚类,使用Matlab中的linkage()函数,使用作为输入成对相异度矩阵。结果是分类树(树状图)。然后我们对分类树应用cluster()函数以生成簇的最终分组。组的数量设置为原始数据集中真实细胞类型的数量。
我们的最终结果是跨所有样本的细胞簇的划分。分配到同一组的簇被认为代表相同的细胞类型。我们将通过分类系统获得的一组簇称为元簇。MOTT系统以整体方式对齐所有样本中的簇,这种对齐方法我们在下面的讨论中称为同时对齐(SA)。我们可以为每组簇分配不同的标签,从而跨样本生成一致的簇标签。虽然我们的方法没有明确解决这个问题,但当样本来自同一物种且细胞类型在相同分辨率下定义时,我们没有观察到来自同一样本的不同簇被分组在一起,这可能是因为同一患者内簇之间的大距离通常阻止了这种情况。最后,我们在算法1中总结了MOTT的伪代码。
3.2 Matching Clusters by OT-RMC
考虑两个具有分区和的样本,其中是第i个分区中的第k个簇,是簇的数量。距离矩阵包含条目,表示跨两个分区的任何一对簇之间的距离,定义为匹配两个簇的成本。因此,是前面提到的成本矩阵。为了确定两个样本中簇之间的匹配权重,我们采用OT-RMC,公式如下。设间隙向量和。设和的串联。粗略地说,间隙向量表示偏离边际约束的程度,和,在OT中(基本OT的回顾在附录S1的Section 1中提供)。间隙变量的非零值受到惩罚以确保OT-RMC不会退化为 trivial 解。根据用于的惩罚函数以及是否以及如何为优化问题中的变量设置上下界,OT-RMC可以有许多变体。在我们这里的情况下,间隙变量的惩罚是范数,记为。优化问题在下面的问题(1)中提出。
表示问题(1)的最优为匹配权重矩阵。矩阵指定在优化匹配成本后分配给每对簇和的匹配比例。比例称为给予的诱导比例,是给予的诱导比例。如果将一个簇与另一个分区中的任何簇匹配的成本过高,则该簇可以被分配为零比例,即或。
为了定义距离,我们首先计算表征簇和的两个高斯分布之间的平方Wasserstein距离。假设表示的高斯分布是,其中是均值向量,是协方差矩阵。那么
对于任何簇,我们通过其样本均值估计均值,并通过其样本协方差矩阵估计。然后我们通过将每个由和索引的条目除以最大条目来标准化。将标准化矩阵定义为成本矩阵。用于定义的标准化使对数据的依赖性降低。如何选择在我们的实验中在结果部分解释。
我们假设每个簇可以合理地由高斯分布近似,以实现分析上的易处理性,这一假设在许多实际设置中被证明是足够的。尽管并非普遍准确,但在单细胞数据经过标准预处理步骤(如归一化和降维(例如,PCA)后,这一假设通常得到经验支持,这些步骤往往产生具有大致椭圆形状的簇,特别是当簇包含许多细胞时。我们承认,对于小簇,高斯估计——尤其是协方差矩阵的估计——可能不稳定。在这种情况下,可以使用正则化估计量,例如向对角矩阵收缩。更一般地说,这是一个估计多元密度的问题,对此有丰富的文献。尽管我们在这项工作中采用高斯建模,但更广泛的分类系统框架与非高斯分布兼容;唯一需要的修改是如何计算簇间距离。例如,如果有足够的数据可用,可以将簇建模为高斯混合模型(GMM),并使用GMM之间的最小化聚合Wasserstein(MAW)距离计算距离。
3.3 Labeling Based on Alignment With a Reference
在本小节中,我们介绍一种基于与预先选择的参考对齐来标记多个样本簇的替代方法。我们将此方法称为参考对齐(RA)。
标记样本中簇的标准方法涉及成对匹配。通过成对匹配,一个样本中的簇被视为真实情况,另一个样本中的簇通过将其与参考样本中的簇对齐来标记。提供簇标签的样本称为参考。通过将每个其他样本的簇与参考样本的簇对齐,可以跨所有样本分配连贯的标签,从而构建分类系统。这个过程可以用不同的参考样本重复进行。具体来说,我们实施以下过程,为与MOTT系统的比较提供基线。
选择作为参考的样本是具有最多唯一细胞类型的样本。参考样本可能不包含其他样本中存在的所有真实簇。然后我们使用参考样本来标记其余样本的簇。假设参考样本有簇,要对齐的样本有簇。OT、OT-RMC和POT都产生一个权重矩阵。根据我们选择参考样本的方式。非参考样本中第l个簇的分配标签由决定。
为了评估,我们可以使用不同的样本作为参考重复该过程,并通过平均使用不同参考获得的结果来衡量性能。
3.4 Sample-Level Classification
我们通过将分类系统与细胞类型的真实注释(如果在数据中提供)进行比较,以及通过计算基于使用分类系统提取的特征向量对样本进行分类的准确性来评估分类系统。后者是一种间接方法,评估分类系统对下游分析任务的影响。一旦建立了分类系统,我们就为所有样本中的簇分配连贯的标签。然后我们计算属于每个簇标签的细胞比例,并将这些比例用作对样本进行分类的特征。因此,特征向量的维度对应于不同簇标签的数量。请注意,即使细胞簇的真实类型不可用,例如在计算生成的簇的情况下,自动生成的分类系统仍然允许对细胞簇进行连贯标记,从而能够进行样本级分类。在我们的实验中,我们测试了构建分类系统的不同方法,其中一些作为比较的基线,并应用随机森林(RF)对样本进行分类。
我们从细胞簇的细胞类型准确性和样本的分类准确性方面评估MOTT。我们在11个scRNA-seq数据集上进行了测试。大多数数据集不将样本分为类别或为所有样本提供标签。因此,仅在4个数据集上进行了样本级分类评估。对于测试的数据集,不同的样本通常对应于不同的患者,尽管在某些情况下,它们对应于在不同时间记录的重
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号