打破常规认知:基础细胞模型在扰动后 RNA-seq 预测中的表现大揭秘

【字体: 时间:2025年04月24日 来源:BMC Genomics 3.5

编辑推荐:

  为解决扰动数据获取困难,以及基础细胞模型缺乏有效评估的问题,研究人员开展对 scGPT 和 scFoundation 等基础模型的基准测试研究。结果发现简单基线模型表现更优,常用数据集存在局限性。这为改进模型评估提供了方向。

  在生命科学的微观世界里,细胞的行为一直是科学家们探索的焦点。准确预测细胞对各种扰动(perturbation)的反应,就像是掌握了一把打开理解健康与疾病状态下细胞奥秘的钥匙,这对于发现新的治疗靶点至关重要。然而,获取扰动数据比获取基线(非扰动)细胞数据要困难得多。
为了解决这一难题,近年来基于 Transformer 的基础细胞模型应运而生。这些模型在大规模单细胞基因表达数据上进行预训练,期望能捕捉基因调控和信号传导的一般原则,进而在扰动数据上微调以预测扰动后的细胞表型。但目前,对这些模型的正确基准测试仍是一个未解决的挑战。

来自匈牙利 Turbine Ltd. 的研究人员 Gerold Csendes、Gema Sanz、Kristóf Z. Szalay 和 Bence Szalai 开展了一项重要研究。他们对 scGPT 和 scFoundation 这两个近期发表的基础模型进行基准测试,并与不同复杂度的基线模型对比。研究成果发表在《BMC Genomics》上,为该领域带来了新的认知。

研究人员在研究过程中运用了多种技术方法。首先,从公开渠道获取了 Adamson、Norman 和两个 Replogle 等 Perturb-seq 数据集,这些数据集通过结合 CRISPR - 基于的扰动与单细胞测序,来捕获扰动后的基因表达谱。之后,利用 GEARS’ cell - gears v0.0.1 软件包对数据进行处理,包括将单细胞表达值标准化到 10000 reads 并进行对数转换。对于模型构建,使用了 scGPT v0.2.1 和 scFoundation 的相应代码库,并根据数据集进行微调。同时,构建了 Train Mean、Random Forest Regressor、Elastic Net 和 k - Nearest - Neighbour(kNN)Regressor 等基线模型,利用不同的基于先验知识的特征进行训练。最后,使用 Pearson、Pearson Delta 等多种指标在 “批量” 水平上评估模型性能。

扰动后 RNA - seq 预测方法的基准测试


研究人员对 scGPT 和 scFoundation 这两个基于大语言模型(LLM)的 Transformer 架构模型进行评估。这两个模型在大规模未标记单细胞 RNA 测序(scRNA - seq)数据上预训练,学习基因嵌入并捕获基因 - 基因关系,用于预测扰动后细胞的 RNA - seq 谱。研究采用了四个 Perturb - seq 数据集,评估模型在 “扰动专属(Perturbation Exclusive,PEX)” 设置下处理未见扰动的能力。

结果令人惊讶,在差异表达空间(Pearson Delta)评估中,最简单的基线模型 Train Mean(通过对训练数据集的伪批量表达谱求平均来预测),在多个数据集上的相关性都优于 scGPT 和 scFoundation。例如在 Adamson 数据集中,Train Mean 的相关性为 0.711,而 scGPT 为 0.641,scFoundation 为 0.552。带有基因本体(Gene Ontology,GO)特征的随机森林回归器(Random Forest Regressor)更是大幅超越基础模型,在四个数据集中,其相关性分别达到 0.739、0.586、0.480 和 0.648。

进一步分析发现,使用基础模型预训练嵌入作为随机森林回归器特征时,模型性能有所提升,但仍不如带有 GO 特征的随机森林回归器。同时,使用基于自然语言处理的 scELMO 特征的随机森林回归器,与基于 GO 的随机森林回归器性能相似。在分析模型对前 20 个差异表达(differentially expressed,DE)基因的预测性能时,发现 scGPT 在包含 CRISPR 靶基因时表现较好,但去除靶基因后性能下降。

有限的扰动多样性影响基准测试结果


研究人员深入探究了基准测试数据集的组成。尽管四个数据集包含大量单细胞,但不同扰动的数量相对较少。例如,Adamson 数据集中有 68,603 个单细胞,却仅有 87 种不同扰动。通过分析伪批量差异表达谱的成对相似性发现,Adamson 数据集的扰动谱相似度高,中位数 Pearson 相关性达到 0.662,而 Replogle K562 数据集变异性更大,中位数 Pearson 相关性为 0.117。

研究还发现,数据集的异质性与基准测试中最佳模型和 Train Mean 模型的性能差异呈负相关。这表明,更具多样性的数据集更适合评估模型性能。当前数据集的有限方差限制了对复杂模型真实性能的评估,简单模型因数据特征在评估指标上表现意外良好。

研究结论显示,基础模型在扰动后 RNA - seq 预测任务中的表现与简单的 Train Mean 模型相当,甚至被利用先验生物学知识的随机森林回归器超越。常用基准测试数据集的低方差,使其难以有效评估模型性能。这一研究成果意义重大,为后续改进基准测试方法提供了方向。研究表明,当前基础模型在学习扰动特异性信息方面可能存在不足,而利用像 GO 术语这样的功能类别来表示扰动效应可能更有效。同时,也为未来开发更严格、更有意义的基准测试提供了思路,需要纳入更高方差和更多样化的数据集,以准确评估机器学习模型在扰动后预测任务中的适用性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号