基于表型特异性模型的变异效应预测新方法:V2P模型提升基因组变异致病性及表型关联解读
《Nature Communications》:Expanding the utility of variant effect predictions with phenotype-specific models
【字体:
大
中
小
】
时间:2025年11月30日
来源:Nature Communications 15.7
编辑推荐:
为解决当前变异效应预测(VEP)方法无法区分致病性变异导致的特定疾病表型、且仅关注单一分子后果的局限性,研究人员开发了多任务多输出机器学习模型V2P。该模型可预测单核苷酸变异(SNV)和插入/缺失(indel)对人类表型本体(HPO)中23种顶级表型的致病性,在多个高质量评估数据集上表现出优于现有方法的性能,并通过真实和模拟患者测序数据验证了其在致病变异识别中的实用性,为基因组规模的变异-表型关联研究提供了新工具。
随着高通量测序技术的普及,海量的遗传变异数据不断涌现,然而绝大多数变异的功能意义仍不明确。传统计算工具在解读这些"意义未明变异"时面临两大核心挑战:一是多数方法将致病性变异视为同质类别,无法区分导致不同疾病表型的变异;二是现有方法多局限于特定类型变异(如仅关注错义变异或编码区变异),难以实现全基因组范围的综合评估。这种"一刀切"的预测策略可能导致对某些基因或特定分子机制变异的表现不佳,限制了其在精准医疗中的应用潜力。
为突破这些局限,由David Stein、Meltem Ece Kars等研究人员组成的国际团队在《Nature Communications》上发表了题为"Expanding the utility of variant effect predictions with phenotype-specific models"的研究,开发了名为V2P(Variant-to-Phenotype)的创新性机器学习模型。该模型首次实现了在全基因组范围内对单核苷酸变异(SNV)和插入/缺失(indel)的致病性及其导致的顶级人类表型本体(HPO)表型的同时预测。
研究团队整合了来自人类基因突变数据库(HGMD)的252,125个致病性变异和gnomAD数据库的244,231个推定良性变异,涵盖6,620个基因。V2P采用多任务、多输出的集成学习架构,结合六种多标签分类策略,生成24个预测分数——包括一个通用致病性分数和23个对应于HPO表型 abnormality子本体中顶级表型的特异性分数,如神经系统异常、肿瘤、肌肉骨骼系统异常等。
关键技术方法包括:基于同源性的数据集划分策略(使用CD-HIT确保序列相似性<40%的蛋白质不跨数据集);多标签分类的问题转换方法(二元关联、标签幂集和随机k标签集);基于LightGBM的梯度提升决策树集成;以及利用Boruta算法和SHAP值进行的特征重要性分析。评估数据来自HGMD专业版2023.4、ClinVar和gnomAD,并利用深度突变扫描(DMS)和大规模并行报告基因分析(MPRA)等功能实验数据进行验证。
V2P的核心创新在于其多任务学习框架,该框架同时学习变异致病性和表型特异性预测这两个相关任务。模型输入包括基因水平特征(如疾病关联、通路信息)、蛋白质水平特征(基于AlphaFold2预测结构的描述符)、蛋白质相互作用网络特征以及变异水平特征(如进化保守性)。通过共享底层特征表示并分别优化各表型特异性任务,V2P能够捕捉不同表型间变异的功能特征差异。训练过程中,针对样本量较少的表型类别,研究采用随机多标签过采样技术增加少数类样本的权重,以提高模型对罕见表型的识别能力。
通过Boruta全相关特征选择算法,研究发现不同表型相关的致病性变异具有独特的生物学特征谱。例如,导致肌肉骨骼系统异常的变异富集于与关节弯曲、肌病等疾病相关的基因中,而在非肌肉骨骼组织中表达上调的基因中则呈现缺失。导致皮肤系统异常的变异则与多种皮肤肿瘤特征相关,并在日照暴露和非暴露皮肤中表达较高。这些特征包括基因功能注释、组织特异性表达、蛋白质结构特征、表观遗传调控等多个维度。有趣的是,基于共享特征的表型间相关性分析与基于变异共现的表型相关性高度一致,如肌肉骨骼系统异常与肢体异常表现出最强的特征共享和表型共现。
在三个独立评估数据集(保留测试集、HGMD 2023.4和ClinVar)上,V2P在表型预测和致病性判别方面均表现出色。对于表型预测,V2P在21个HPO表型上显著优于随机基线,微观平均平均精度(AP)分别为0.53、0.79和0.67。对于致病性预测,V2P的AP分别达到0.86、0.93和0.94。特别值得注意的是,与现有方法(如CADD、AlphaMissense等)相比,V2P的表型特异性预测在21个表型上超越了所有对比方法,表明表型条件的预测策略能显著提升变异效应预测的准确性。
研究进一步将V2P预测与功能性实验数据进行比较。在52个蛋白质的66个深度突变扫描(DMS)实验中,V2P的致病性预测与实验测量值表现出高度一致性(如PRKN蛋白的Spearman相关系数ρ=0.59)。对于非编码变异,V2P在16个大规模并行报告基因分析(MPRA)中的7个上达到了最高相关性,中位相关系数(ρ=0.34)优于CADD(ρ=0.29)和FATHMM(ρ=0.19)。这些结果表明V2P不仅能准确反映临床注释,还能捕捉变异的功能影响。
为评估V2P在真实临床场景中的应用价值,研究团队分别在116名罕见免疫疾病患者的外显子组数据和100个随机选择的BioMe生物库外显子组数据中进行了测试。在已知致病变异引入实验中,V2P表型特异性评分将致病变异的平均排名显著降低至第2位,远优于CADD(第5.5位)和Capice(第10位)。重要的是,49%的致病变异被V2P排名在前1%,而CADD和Capice仅分别为22%和18%,证明V2P在利用患者表型信息优先排序致病变异方面具有明显优势。
该研究开发的V2P模型首次实现了全基因组范围内变异致病性与表型效应的联合预测,突破了传统方法将致病性变异视为同质类别的局限。通过多任务学习框架,V2P不仅提高了致病性预测的准确性,还为变异的功能注释提供了表型层面的新维度。研究表明,整合表型特异性信息能显著改善致病变异的识别效率,特别是在患者测序数据中优先排序候选致病变异方面表现突出。
V2P的推出为罕见病诊断、变异功能解读和疾病机制研究提供了强大工具。其全基因组范围的预测能力使其适用于各种变异类型(编码区/非编码区,SNV/indel),扩展了变异效应预测的应用场景。此外,通过揭示不同表型相关变异的独特生物学特征,V2P为理解基因型-表型关系的分子基础提供了新视角。研究人员已预计算了hg38参考基因组中所有可能SNV和gnomAD中所有indel的V2P评分,并通过网站www.v2p.ai向科学界开放,这将促进变异解读标准的发展和完善。
尽管V2P在表型粒度上仍限于HPO顶级类别,且可能受到训练数据偏倚的影响,但其创新性的多标签预测框架为下一代变异效应预测方法的发展指明了方向。随着更多高质量标注数据的积累和深度学习技术的进步,未来有望实现更精细表型水平的变异效应预测,进一步推动精准医疗和功能基因组学的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号