-
生物通官微
陪你抓住生命科技
跳动的脉搏
分析bulk RNA-seq的数据哪家强?四种方法大比拼
【字体: 大 中 小 】 时间:2021年08月03日 来源:生物通
编辑推荐:
昆士兰大学的研究人员近日确定了一种强大工具,可用于大规模患者数据集的分析。这项发表在《Cell Reports》上的研究成果有望促进更好的患者分层以及更精准的靶向治疗。
昆士兰大学的研究人员近日确定了一种强大工具,可用于大规模患者数据集的分析。这项发表在《Cell Reports》上的研究成果有望促进更好的患者分层以及更精准的靶向治疗。
转录组学分析在生物医学研究中起到关键作用。线性降维方法(尤其是主成分分析PCA)被广泛用于检测样本之间的异质性,而最近开发的非线性方法(如t-SNE和UMAP)可用于单细胞RNA测序的数据分析。
然而,t-SNE和UMAP是否能够应用于大量细胞的转录组分析(bulk RNA-seq)?它们与传统方法相比表现如何?这些问题暂时还没有答案。
于是,昆士兰大学的研究人员在Di Yu教授的带领下,比较了四种不同的主流工具:PCA、MDS、t-SNE和UMAP。他们利用这些方法来分析71个临床数据集(每个数据集包含100多个患者样本),并根据患者的基因表达来分析其血液特征。
Yu教授解释说:“试想一下,我们正在分析大型的患者数据集,每位患者都有超过10,000个基因,那么我们需要一种非常好的方法来降低这些海量数据的复杂性,以便更好地进行解释。”
他认为,在比较的四种工具中,UMAP的功能非常强大。许多临床医生目前正在使用PCA来对患者进行分层。与PCA相比,他认为UMAP的表现明显更优。
(图片来自原文)
UMAP 在报告患者聚类方面更为有效。使用该工具,研究人员能够将健康样本与狼疮样本区分开,并将狼疮患者分为不同的疾病亚组。他们还可以显示哪些患者病情好转,哪些患者病情恶化。
“UMAP的算法更多地基于机器学习,这使得它比流行的PCA工具更强大,后者主要采用线性方法,”Yu教授说。
UMAP工具相对较新,目前仅用于生物医学研究,不过,研究人员希望未来将其应用在临床分析中。他们建议在观察和分析大量细胞的转录组数据集时采用UMAP,以便加强样本异质性分析。
###
Yang Yang et al, Dimensionality reduction by UMAP reinforces sample heterogeneity analysis in bulk transcriptomic data, Cell Reports (2021). DOI: 10.1016/j.celrep.2021.109442