
-
生物通官微
陪你抓住生命科技
跳动的脉搏
通过排序整合多种聚类技术和性能指标,用于scRNA-Seq数据分析
《Statistics in Medicine》:Integrating Multiple Clustering Techniques and Performance Measures via Ranking for scRNA-Seq Data
【字体: 大 中 小 】 时间:2025年12月04日 来源:Statistics in Medicine 1.8
编辑推荐:
单细胞基因表达数据分析中聚类技术评估方法研究,将微阵列时代的稳定性指标拓展应用于单细胞数据,结合多性能指标评估和聚合方法(AM)进行综合排名,验证了聚合方法在五个已知群组数据集和一个未知群组数据集上的有效性,揭示了单一指标评估的局限性。
随着单细胞基因表达数据分析的不断发展,对可靠聚类技术的需求变得越来越重要。这种发展也促使人们更多地采用启发式方法来选择聚类算法,但如果忽略对生成的聚类的全面评估,可能会导致报告结果不准确。在微阵列数据领域之前的研究中,已经提出了用于评估高度相关数据聚类技术的稳定性指标。同一时期关于数据聚合的进一步研究提出了一种结合多种性能指标对排名列表进行综合评估的方法。在本文中,我们将微阵列时代使用的稳定性指标调整适用于单细胞数据,并将其与几种现有的评估方法结合使用,以评估不同参数设置下聚类技术的特性。然后,我们通过一种聚合方法(AM)对所有指标进行比较,从而对五个具有已知分组的数据集以及一个没有已知分组的数据集中的聚类技术进行排名。我们的研究结果表明,仅根据单一验证指标排名最高的技术,在其他多个数据集中的表现往往并不出色。相反,我们基于各项指标排名对技术进行聚合的方法能够确保整体表现优异的技术获得最高排名。以这种方式选出的技术在大多数评估的聚类特性上表现优于平均水平,并且在其他方面也表现良好,例如能够一致地估计出与实际生物组数量相符的聚类数量。
作者声明没有利益冲突。
所有数据均公开可用,相关代码在正文中及下方有直接引用。第一个数据集由Biase等人研究确定细胞身份,可通过NCBI基因表达组数据库(GEO;http://www.ncbi.nlm.nih.gov/geo/)获取,访问号为GSE57249。第二个数据集由Deng等人研究确定细胞身份,可在GEO数据库中通过访问号GSE45719获取,同时也在序列读取档案(Sequence Read Archive)中通过访问号SRP020490获取。第三个数据集由Goolam等人研究确定细胞身份,可通过功能基因组数据集合(Functional Genomics Data Collection)通过访问号ArrayExpress: E-MTAB-3321获取。第四个数据集由Pollen等人收集,可通过NCBI序列读取档案(http://www.ncbi.nlm.nih.gov/Traces/sra/)通过访问号SRP041736获取。第五个数据集由Yan等人研究确定细胞身份,可在GEO数据库中通过访问号GSE36552获取。第六个数据集由Yao等人研究获得,包含3个月大小鼠的骨髓细胞,可通过GEO数据库(访问号GSE145477)和Broad研究所细胞门户(Broad Institute Cell Portal,研究编号SCP1017)获取。
生物通微信公众号
知名企业招聘