分析bulk RNA-seq的数据哪家强?四种方法大比拼

【字体: 时间:2021年08月03日 来源:生物通

编辑推荐:

  昆士兰大学的研究人员近日确定了一种强大工具,可用于大规模患者数据集的分析。这项发表在《Cell Reports》上的研究成果有望促进更好的患者分层以及更精准的靶向治疗。

昆士兰大学的研究人员近日确定了一种强大工具,可用于大规模患者数据集的分析。这项发表在《Cell Reports》上的研究成果有望促进更好的患者分层以及更精准的靶向治疗。

转录组学分析在生物医学研究中起到关键作用。线性降维方法(尤其是主成分分析PCA)被广泛用于检测样本之间的异质性,而最近开发的非线性方法(如t-SNE和UMAP)可用于单细胞RNA测序的数据分析。

然而,t-SNE和UMAP是否能够应用于大量细胞的转录组分析(bulk RNA-seq)?它们与传统方法相比表现如何?这些问题暂时还没有答案。

于是,昆士兰大学的研究人员在Di Yu教授的带领下,比较了四种不同的主流工具:PCA、MDS、t-SNE和UMAP。他们利用这些方法来分析71个临床数据集(每个数据集包含100多个患者样本),并根据患者的基因表达来分析其血液特征。

Yu教授解释说:“试想一下,我们正在分析大型的患者数据集,每位患者都有超过10,000个基因,那么我们需要一种非常好的方法来降低这些海量数据的复杂性,以便更好地进行解释。”

他认为,在比较的四种工具中,UMAP的功能非常强大。许多临床医生目前正在使用PCA来对患者进行分层。与PCA相比,他认为UMAP的表现明显更优。


(图片来自原文)

UMAP 在报告患者聚类方面更为有效。使用该工具,研究人员能够将健康样本与狼疮样本区分开,并将狼疮患者分为不同的疾病亚组。他们还可以显示哪些患者病情好转,哪些患者病情恶化。

“UMAP的算法更多地基于机器学习,这使得它比流行的PCA工具更强大,后者主要采用线性方法,”Yu教授说。

UMAP工具相对较新,目前仅用于生物医学研究,不过,研究人员希望未来将其应用在临床分析中。他们建议在观察和分析大量细胞的转录组数据集时采用UMAP,以便加强样本异质性分析。

###

Yang Yang et al, Dimensionality reduction by UMAP reinforces sample heterogeneity analysis in bulk transcriptomic data, Cell Reports (2021). DOI: 10.1016/j.celrep.2021.109442

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号