编辑推荐:
研究人员针对单细胞扰动数据网络推理评估难题,开发 CausalBench 基准套件,推动该领域发展。
在生命科学的神秘领域中,理解细胞内的生物机制对于早期药物研发至关重要。就像解开一团错综复杂的毛线球,研究人员试图绘制出细胞系统中的生物机制,从而找到那些能被药物干预有效调节的疾病相关分子靶点。随着高通量技术的发展,人们能够在基因扰动下测量单细胞基因表达,这为大规模研究基因间的因果关系提供了可能。然而,评估网络推理方法在真实环境中的性能却困难重重。一方面,缺乏确定的真实情况作为参照;另一方面,传统基于合成数据集的评估无法反映这些方法在真实世界系统中的表现。在这样的背景下,研究人员迫切需要一种新的工具来解决这些问题,于是 CausalBench 应运而生。
来自瑞士的 GSK.ai、ETH Zürich 以及美国斯坦福大学的研究人员,针对上述难题开展了深入研究。他们开发了 CausalBench,这是一个用于评估因果发现算法的综合性开放基准套件,相关成果发表在《Communications Biology》上。
在研究过程中,研究人员运用了多种关键技术方法。他们利用 CRISPRi 基因编辑技术对特定基因进行敲低,获取大量的单细胞扰动数据。同时,借助单细胞 RNA 测序技术,测量个体细胞在基因扰动下的全转录组信息。为了评估不同方法的性能,研究人员还构建了生物学评估和统计评估体系,其中生物学评估借助 CORUM 和 STRING 等生物数据库,统计评估则通过计算平均 Wasserstein 距离和错误遗漏率(FOR)等指标来实现。
研究结果主要围绕以下几个方面展开:
- CausalBench 的构建与评估指标:CausalBench 基于两个大规模扰动数据集,包含来自 RPE1 和 K562 两种细胞系的超过 200,000 个干预数据点。研究人员开发了细胞特异性指标,采用生物学驱动的近似真实情况和定量统计评估两种方式。在统计评估中,计算平均 Wasserstein 距离和 FOR,这两个指标相互补充,能有效衡量模型预测的准确性。
- 网络推理方法的性能评估:研究人员对多种现有最先进的网络推理方法进行了评估,包括 PC、GES、NOTEARS 等多种方法。结果发现,不同方法在精度和召回率之间存在权衡。例如,Mean Difference 和 Guanlab 在两种评估方式中都表现出色,Mean Difference 在统计评估中稍占优势,Guanlab 在生物学评估中表现更佳;GRNBoost 在生物学评估中有较高的召回率,但精度较低。此外,研究还发现,利用干预信息的方法并不一定比仅使用观察数据的方法表现更好,不过 CausalBench 挑战中开发的方法对干预信息的利用率更高,性能也更优。
- 最优方法的特征:实际应用中,最优方法应具备可扩展性,能够处理大规模图,并且随着数据点和目标基因数量的增加,性能也应有所提升。研究发现,大多数测试方法在扩展性方面存在不足,只有部分方法如 NOTEARS、GRNBoost(+TF)、SCENIC 等以及挑战方法能够扩展到全图。同时,样本大小和扰动比例对方法性能也有影响,例如在干预设置中,较大的样本量对依赖深度网络和基于梯度学习的方法有积极影响,而 Mean Difference、Guanlab 等方法在更多扰动数据下性能提升明显。此外,最优方法还应具备跨细胞类型的稳健性,研究表明,评估的方法在两种细胞类型中的性能总体较为一致,但仍需更多数据集进行验证。
- 案例分析:以翻译起始和核糖体生物发生复合体部分基因为例,研究人员发现 Mean Difference(top 5k)和 Guanlab(top 1K)在预测基因间相互作用时存在差异。Guanlab(top 1k)预测的相互作用可信度高,但会遗漏一些关键相互作用;Mean Difference(top 5k)能召回更多相互作用,但与 RUVBL1 的预测相互作用可能是间接的,这体现了两种方法在精度和召回率上的差异。
研究结论和讨论部分强调了 CausalBench 的重要意义。它为网络推理模型的评估提供了新的标准,加速了新方法的开发。虽然目前的研究存在一些局限性,如生物网络评估难以完全反映真实情况、现有模型存在假设条件限制、单细胞数据具有挑战性等,但 CausalBench 为解决这些问题提供了方向。对于从业者来说,Mean Difference 和 Guanlab 是分析扰动数据集的有力工具;对于方法开发人员,CausalBench 是理想的测试平台,未来可以在此基础上进一步改进方法。随着更多大规模扰动数据集的公开,CausalBench 有望不断完善,在数据驱动的药物发现领域发挥更大的作用,推动生命科学和健康医学领域的发展。