编辑推荐:
在单细胞生物学领域,为探究基础模型在零样本设置下的性能,研究人员对 Geneformer 和 scGPT 进行研究。结果显示,这两个模型在零样本设置下表现不稳定,可能面临可靠性挑战。该研究强调了零样本评估在单细胞研究基础模型开发和部署中的重要性。
在生命科学的微观世界里,单细胞研究正如火如荼地展开。随着研究的深入,人们渴望借助先进的技术更精准地解析单细胞的奥秘。基础模型应运而生,像 scGPT 和 Geneformer 这类模型,被寄予厚望,期望它们能自动化完成细胞类型识别、基因表达预测等关键任务。然而,一个关键问题摆在眼前:这些模型在零样本设置(即不进行额外训练直接应用)下的表现究竟如何呢?
要知道,许多单细胞研究场景中,标签未知,无法进行模型微调,这使得零样本评估的重要性凸显。但此前,相关研究在这方面的探索十分有限。为了填补这一空白,来自英国牛津大学和美国微软研究院的研究人员,包括 Kasia Z. Kedzierska、Lorin Crawford、Ava P. Amini 和 Alex X. Lu 等人,开展了一项极具意义的研究,该研究成果发表在《Genome Biology》杂志上。
研究人员采用了多种关键技术方法。在模型选择上,评估了 Geneformer 和 scGPT 这两种单细胞转录组学基础模型,同时选取了高度可变基因(HVG)选择法、scVI(一种可扩展的生成模型)和 Harmony(一种调整共享嵌入空间的方法)作为基线进行对比。在数据集方面,使用了五个不同的人类组织数据集,涵盖胰腺、外周血单核细胞(PBMCs)、跨组织免疫细胞图谱、多器官人类细胞图谱等样本,这些数据集为研究提供了丰富多样的单细胞数据。在评估指标上,运用了生物保存分数(如平均轮廓宽度 ASW 和平均生物分数 AvgBIO)、批混合分数(如批集成分数和主成分回归 PCR 分数)以及基因表达重建评估等多种指标,全面衡量模型性能。
研究结果如下:
- 细胞类型聚类性能:在跨多个数据集分离已知细胞类型的零样本性能评估中,scGPT 和 Geneformer 在细胞类型聚类方面的表现不如 HVG 选择法、scVI 和 Harmony。以 AvgBIO 评分衡量,这两个模型表现较差;从平均轮廓宽度(ASW)指标来看,传统基线方法也更具优势。尽管 scGPT 在 PBMC(12k)数据集上相对于某些基线有较好表现,但在其他数据集上仍存在不足。而 HVG 在所有指标上均优于 Geneformer 和 scGPT1。
- 批处理效应处理能力:在批集成任务中,Geneformer 和 scGPT-human 在整合相同实验技术的不同实验时存在困难,难以校正不同技术之间的批效应。定性分析发现,Geneformer 的细胞嵌入空间无法保留细胞类型信息,聚类主要受批效应驱动;scGPT 虽能对细胞类型有一定区分,但降维后的主要结构仍受批效应主导。定量评估显示,Geneformer 在大多数数据集上的批集成表现不如其他模型,而 scGPT 在不同数据集上表现各异,在复杂数据集上虽有优势,但无法确定是否因预训练时见过相关数据。令人意外的是,HVG 在所有数据集上的批集成分数最佳23。
- 基因表达重建能力:研究人员评估了模型在基因表达重建预训练任务中的表现。结果发现,scGPT 在无细胞嵌入条件下,预测结果不如简单的均值预测,有细胞嵌入时虽有改善但提升有限;Geneformer 在预测基因排名时,与实际排名的相关性一般,存在预测出输入中不存在基因的情况4。
研究结论和讨论部分指出,scGPT 和 Geneformer 在当前形式下,零样本配置的表现不稳定,在处理批效应方面存在挑战。这表明零样本评估能揭示仅通过微调评估无法发现的模型弱点。同时,研究还对 MLM 用于学习单细胞嵌入的适用性提出了质疑,发现更大的预训练数据集并不总是能提升 scGPT 的性能,且预训练时见过的数据集在细胞类型聚类上表现仍不佳。这为后续模型改进指明了方向,如探索更有效的预训练任务,以增强模型对基因和基因表达的表征能力。
总的来说,这项研究意义重大。它让人们对单细胞基础模型在零样本设置下的性能有了更清晰的认识,强调了零样本评估在基础模型开发和部署中的关键作用。为后续研究如何优化单细胞基础模型、提升其在单细胞研究中的实用性提供了重要参考,推动了单细胞生物学与基础模型交叉领域的发展。