PORCELAN:解锁细胞谱系与基因表达奥秘的创新工具

【字体: 时间:2025年01月28日 来源:Nature Communications

编辑推荐:

  在生物学研究中,如何从单细胞 RNA 测序(scRNA-seq)数据中挖掘细胞谱系与基因表达的关联是关键问题。研究人员开展了 “Integrating representation learning, permutation, and optimization to detect lineage-related gene expression patterns” 主题研究。结果开发出 PORCELAN 方法,能精准识别相关基因和子树,意义重大。

  在生命科学的微观世界里,细胞的谱系和基因表达一直是科学家们探索的重要领域。随着科技的发展,单细胞 RNA 测序(scRNA-seq)技术和条形码技术的出现,让研究人员有机会获取大量细胞的基因表达数据,并重建细胞谱系树。然而,目前的研究仍面临诸多挑战。一方面,传统的可视化技术,如主成分分析(PCA)、t - 随机邻域嵌入(t-SNE)和均匀流形近似与投影(UMAP)等,在处理 scRNA-seq 数据时,往往只能捕捉到细胞状态相关的变异,难以揭示细胞谱系与基因表达之间的深层联系。另一方面,现有的计算方法在整合谱系和基因表达数据方面存在不足,无法充分利用高分辨率的谱系信息,难以准确识别与细胞谱系紧密相关的基因表达模式。
为了解决这些问题,来自美国麻省理工学院信息与决策系统实验室以及麻省理工学院和哈佛大学博德研究所埃里克和温迪?施密特中心的 Hannah M. Schlüter 和 Caroline Uhler 开展了深入研究。他们开发了一种名为 Permutation, Optimization, and Representation learning based single Cell gene Expression and Lineage ANalysis(PORCELAN)的方法,该方法结合了表示学习、排列策略和优化算法,旨在挖掘细胞谱系与基因表达之间的潜在关系。这一研究成果发表在《Nature Communications》上,为生命科学研究提供了新的视角和有力工具。

研究人员在研究过程中运用了多种关键技术方法。首先,使用 TedSim 模拟生成 scRNA-seq 数据,这些数据基于细胞状态转换树和平衡二叉谱系树,包含了不同细胞状态和祖先信息。其次,通过创建聚合秀丽隐杆线虫胚胎,整合不同个体的基因表达数据,模拟真实研究场景。此外,运用自编码器(autoencoder)学习细胞基因表达谱的谱系树结构表示,结合基于谱系距离的三元组损失(triplet loss)优化自编码器训练。在数据处理方面,对不同来源的数据集进行了严格的预处理,包括修剪无基因表达的细胞、去除单分支、标准化基因表达数据等操作。

PORCELAN 结合自编码器与树状分数映射基因表达谱


研究人员面临的首要问题是如何学习既能捕捉谱系又能捕捉基因表达信息的细胞表示。传统可视化和降维工具难以满足需求,而基于深度学习的表示学习方法,如自编码器,提供了新的思路。研究人员基于谱系树定义了一种三元组损失,通过最小化具有相似谱系距离的细胞在表示空间中的距离,鼓励自编码器学习与谱系树结构一致的基因表达谱表示。经过训练,细胞在表示空间中能根据谱系树进行聚类。为了评估基因表达中谱系树结构的表示程度以及不同谱系分辨率下的变化情况,研究人员引入了树状分数,如局部自相关(LAC)和负三元组损失等。这些分数能够衡量基因表达与谱系树结构的一致性,为后续研究提供了量化指标。

PORCELAN 在模拟研究中检测谱系相关基因表达模式


为了验证 PORCELAN 方法的有效性,研究人员利用 TedSim 模拟生成了两组不同的基因表达数据集。在数据集 1 中,基因表达高度依赖于亲本;在数据集 2 中,基因表达高度依赖于细胞状态。研究结果表明,局部自相关能够准确检测到两组数据中与谱系树相关的基因表达模式。在优化边缘权重以最大化局部自相关时,算法能够识别出将具有不同主导细胞状态的子树分开的内部边缘。同时,联合优化基因权重和边缘权重,可以识别出与谱系相关的基因,并发现子树内基因表达变化与谱系一致的区域。通过对固定高度子树内细胞进行排列并计算树状分数,研究人员发现随着排列距离的增加,树状分数会单调下降,这表明 PORCELAN 能够在不同分辨率下检测到与谱系相关的基因表达模式。

PORCELAN 确定肺癌转移相关子树和基因


研究人员将 PORCELAN 应用于小鼠肺癌谱系追踪和 scRNA-seq 数据。在对 3515_Lkb1_T1 肿瘤样本及其转移灶的研究中,通过联合优化基因和边缘权重,发现优化后的边缘长度能够清晰地将包含转移细胞的子树与原发性肿瘤子树分开,并且聚类部分转移灶。排名最高的基因 Sftpc 在转移灶中表达下调,其树状分数在大部分较大子树中较高,且与肿瘤细胞的初始状态相关。此外,其他排名靠前的基因,如 Clu 和 SFTB 的小鼠同源基因,其表达模式也与肿瘤转移相关。对这些基因进行 GO-term 富集分析发现,它们参与了与癌症转移密切相关的上皮 - 间质转化(EMT)等过程,这表明 PORCELAN 能够识别出与肺癌进展相关的生物学模式。

PORCELAN 揭示癌症与发育中基因表达记忆维持的差异


在发育生物学领域,研究人员将 PORCELAN 应用于秀丽隐杆线虫和小鼠胚胎发育数据集。对于秀丽隐杆线虫,由于其胚胎谱系和细胞命运高度确定,研究人员通过聚合不同个体的细胞创建平均胚胎。优化谱系树边缘权重后,能够分离出特定细胞类型的簇,并且发现一些与细胞类型相关的基因。对于小鼠胚胎,PORCELAN 同样能够分离出不同细胞类型的簇,如早期和晚期内脏内胚层、肠道内胚层和原始血液状态等。通过比较癌症和发育过程中基因表达记忆的维持方式,研究人员发现,在发育数据中,树状分数随排列距离的变化趋势与布朗运动树模型(BMTM)预期相似;而在肿瘤数据中,树状分数曲线出现突然跳跃,这表明肿瘤生长过程中基因表达记忆存在突然变化,与正常发育过程明显不同。

研究开发的 PORCELAN 方法,创新性地整合了表示学习、排列策略和优化算法,成功解决了传统方法在分析细胞谱系和基因表达关系时面临的难题。该方法不仅能够在模拟数据和真实数据中准确检测谱系相关的基因表达模式,还在肺癌研究中确定了与转移相关的子树和基因,揭示了癌症与发育过程中基因表达记忆维持的差异。这一研究成果为生命科学和健康医学领域提供了强大的分析工具,有助于深入理解细胞命运决定、肿瘤发生发展以及胚胎发育等生物学过程的分子机制,为未来的疾病诊断、治疗和药物研发提供了新的理论基础和潜在靶点,具有重要的科学意义和应用价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号