编辑推荐:
在遗传诊断中,变异效应预测器(VEPs)性能评估困难,存在数据循环等问题。研究人员通过分析 36 种人类蛋白质的错义深度突变扫描(DMS)数据评估 97 种 VEPs 性能。结果显示,VEP 在 DMS 基准测试中的表现与临床变异分类有强相关性。这为评估 VEP 临床应用提供了可靠策略。
在生命科学和健康医学领域,理解蛋白质序列与功能之间的关系至关重要,它关乎变异分类、疾病机制探究以及蛋白质设计等多个方面。变异效应预测器(VEPs)作为解析这一复杂关系的重要工具,却面临着性能评估的难题。目前,许多性能评估存在数据循环问题,这会导致对 VEP 性能的高估。比如,变异水平的循环(“type 1”)是指用于训练或调整 VEP 的特定变异,后续又被用于评估其性能;基因水平的循环(“type 2”)则出现在跨基因分析中,测试集中包含与训练所用基因相同或同源基因的不同变异 。这些问题使得大多数独立基准测试规模较小,难以对众多 VEPs 进行全面、公正的评估。
为了解决这些问题,英国爱丁堡大学 MRC 人类遗传学单位(MRC Human Genetics Unit, Institute of Genetics and Cancer, University of Edinburgh)的研究人员 Benjamin J. Livesey 和 Joseph A. Marsh 开展了一项深入研究。他们利用来自 36 种不同人类蛋白质的错义 DMS 测量数据,对 97 种 VEPs 的性能进行了评估。研究结果表明,VEP 在基于 DMS 的基准测试中的性能与临床变异分类之间存在很强的对应关系,尤其是对于那些未直接在人类临床变异上训练的预测器。这一发现意味着,通过比较 VEP 在多种功能检测中的性能,可以作为评估其在临床变异分类中相对性能的可靠策略。该研究成果发表在《Genome Biology》上,为遗传诊断中 VEP 的合理应用提供了重要参考。
在研究方法上,研究人员主要采用了以下关键技术:
- 数据收集:收集 ClinVar 和 gnomAD 数据库中的变异数据,其中 ClinVar 数据保留了被标记为 “pathogenic”“likely pathogenic” 和 “pathogenic/likely pathogenic” 的错义变异,并经过筛选去除了部分不符合要求的数据;gnomAD 数据集则选取了符合特定过滤标准的错义变异,作为 “putatively benign” 数据 。
- DMS 数据集处理:在之前 26 个 DMS 数据集基础上,排除 ClinVar 和 gnomAD 数据集中已有的变异,保留至少包含 1000 个氨基酸变异的数据集,并去除测量抗体结合的数据集。同时,新增 13 个符合标准的数据集,主要来源于 MaveDB 和已发表的研究,还有一个来自未发表研究并获得作者许可 。
- VEP 数据获取:从 dbNSFP 数据库获取部分 VEPs 数据,其余通过本地运行、下载预计算结果、网络接口获取或从 ProteinGym 网站获取等方式获得 。
- 统计分析:使用 Spearman 相关性分析评估 VEPs 与 DMS 之间的一致性;通过计算受试者工作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPRC),评估 VEPs 在临床变异分类中的性能。
研究结果主要包括以下几个方面:
- 新 DMS 数据集和 VEPs:新增 13 个 DMS 数据集和 43 种 VEPs。将 DMS 数据集分为直接检测和间接检测两类,直接检测直接测量目标蛋白质执行功能的能力,间接检测则通过测量细胞生长速率等间接反映变异影响 。同时,根据 VEPs 对人类临床和群体变异数据的使用情况,将其分为临床训练(Clinical-trained)、群体调整(Population-tuned)和无群体数据(Population-free)三类 。
- VEP 性能比较:通过绝对 Spearman 秩相关性评估,发现不同 DMS 数据集与 VEPs 预测的相关性存在差异,部分数据集相关性较强,部分较弱 。在与 DMS 数据集的相关性方面,Population-free 的 VEPs 在 36 个数据集中有 20 个排名最高,Population-tuned 的 VEPs 在 9 个数据集排名最高,Clinical-trained 的 VEPs 仅在 7 个数据集排名最高 。为解决不同 VEPs 预测覆盖度不同的问题,采用成对比较策略,结果显示 CPT-1 在整体排名中位居榜首,AlphaMissense 紧随其后 。
- VEPs 在临床变异分类中的性能:评估 VEPs 区分 ClinVar 中致病性和可能致病性错义变异与 gnomAD v4 中 “putatively benign” 错义变异的能力。发现临床训练的 VEPs 在临床基准测试中的性能可能因数据循环而被高估。通过成对比较 AUROC 和 AUPRC,发现 Population-free 和 Population-tuned 的 VEPs 在 DMS 基准测试和临床变异分类中的相对性能有很强的相关性,而 Clinical-trained 的 VEPs 相关性较低 。
- 实际考虑因素:探讨了获取 VEPs 预测结果的便捷性,包括网络接口、预计算结果数据库和安装运行预测器三种方式,并对排名前 15 的 VEPs 进行了相关总结 。
研究结论和讨论部分指出,该研究利用多种 DMS 实验数据对 VEPs 进行基准测试,有效减少了传统基准测试中的潜在偏差,成对比较方法对数据集和缺失预测具有稳健性 。研究揭示了基于临床数据的基准测试存在的数据循环问题,并为通用 VEPs 的选择提供了建议 。尽管研究表明通过 DMS 数据集评估 VEPs 性能是可靠的,但 VEP 输出结果的临床解释仍存在难题,如不同基因上 VEP 性能差异大,难以确定统一的诊断阈值 。未来,变异效应预测领域需要在非错义编码变异和非编码变异的方法开发和基准测试方面开展更多工作。此外,研究还发现排名靠前的 VEPs 多使用蛋白质结构信息,这可能是 VEP 发展的重要方向 。总体而言,该研究为变异效应预测领域提供了重要的理论和实践依据,有助于推动遗传诊断技术的发展。