一种用于 MEFV 错义变异分类的创新七层级框架:提升基因变异分类准确性,助力精准医学

【字体: 时间:2025年03月18日 来源:Scientific Reports 3.8

编辑推荐:

  为解决 MEFV 基因变异临床分类与计算机预测差异大的问题,研究人员开发七层级分类系统,提高了分类准确性。

  

研究背景:基因变异分类的挑战与机遇

在生命科学和医学领域,基因变异的准确分类一直是个关键难题,它就像一把钥匙,能否正确使用直接关系到精准医疗的大门能否打开。家族性地中海热(Familial mediterranean fever,FMF)是一种会引发发热、腹痛和多浆膜炎的自身炎症性疾病,与 MEFV 基因的突变紧密相关。MEFV 基因编码的 pyrin 蛋白在先天免疫系统中起着重要的调节作用,一旦 MEFV 基因发生突变,pyrin 蛋白的磷酸化水平降低,会导致炎症小体形成增加,进而引发炎症。
随着下一代测序技术的飞速发展,越来越多的 MEFV 基因突变被发现,但尴尬的是,超过一半的突变被归类为意义不明的变异(Variation of unknown significance,VOUS)。现有的计算机预测工具在预测这些变异对蛋白质功能的影响时,准确性差强人意。而且,很多工具采用的二元分类系统(良性 / 致病性)过于简单粗暴,无法准确反映 VOUS 的不确定性。此外,基因特异性的变异预测优化研究虽然有一定成果,但对于像 FMF 这种机制复杂的疾病,效果仍不理想。
在这样的背景下,为了更准确地预测 MEFV 基因变异的致病性,尤其是对 VOUS 进行更细致的分类,研究人员开展了一项具有创新性的研究。

研究机构与研究内容

来自土耳其安卡拉埃特利克市立医院医学遗传学系的 Mustafa Tar?k Alay 开展了这项研究,研究成果发表在《Scientific Reports》上。
研究人员开发了一种针对 MEFV 错义变异的七层级分类系统,并推荐了一种可用于其他基因分类的通用流程。在研究过程中,研究人员从 Ensembl 数据库提取了 12,017 个人类 MEFV 基因变异,经过筛选得到 6034 个错义变异。为了构建分类模型,他们挑选了 42 种计算机工具,并通过三种工具的评分确定了最优值。在机器学习方法的应用上,采用了两种装袋(Bagging)方法和两种提升(Boosting)方法。

研究方法

  1. 数据处理与特征工程:从 Ensembl 数据库获取数据,对 ClinVar 分类进行简化处理。通过多种统计方法进行数据正态性检验和转换,利用局部离群因子(Local outlier factor,LOF)分析去除异常值。
  2. 特征选择:综合考虑多种因素选择计算机工具,运用递归特征消除(Recursive feature elimination,RFE)等多种方法进行特征选择,确定了 REVEL、MetaLR 和 SIFT 等最佳特征组合。
  3. 模型构建与验证:使用随机森林(Random forest,RF)、自适应增强(Adaptive boosting,AdaBoost)、极端梯度提升(Extreme gradient boosting,XGBoost)和极端随机树分类器(Extremely randomized tree classifier,ExTC)等机器学习方法构建模型,通过交叉验证和网格搜索(Grid Search CV)调整超参数,使用硬投票、软投票和混合投票分类方法评估模型性能。
  4. 聚类分析:运用 k-means 聚类和层次聚类方法,对不同分类的数据进行分析,确定最佳聚类数,评估分类效果。

研究结果

  1. 特征关系与选择:通过 Spearman 相关性分析评估 42 个评分之间的关系,主成分分析(Principal component analysis,PCA)表明两个主成分可解释 84% 的方差。利用 RFECV 确定最佳特征数量为 3 个或 6 个,最终选定 REVEL、MetaLR 和 SIFT 作为模型的特征。
  2. 模型性能:在模型训练和验证中,XGBoost 模型准确率最高,达到 0.9882(± 0.0295) ,其次是 ExTC(0.9835 ± 0.0335)、RF(0.9788 ± 0.0158)和 AdaBoost(0.9671 ± 0.0815)。对 15 个已知 ClinVar 变异的预测显示,模型通过多种投票分类方法能 100% 正确分类。
  3. VOUS 分类结果:自适应分类器能将 95.39% 的 VOUS 变异分类为 LP 或 LB 类别,4.61% 分类为 VOUS0;刚性分类器能分类 64.78% 的二级 VOUS 变异,35.22% 无法分类。
  4. 聚类分析结果:k-means 聚类和层次聚类分析显示,7 层级分类系统能更明显地将 LB 和 LP 变异分开。自适应分类器在聚类分析中的标准化互信息(Normalized Mutual Information,NMI)和调整兰德指数(Adjusted Rand Index,ARI)得分更高,因此最终采用自适应分类器进行分类。
  5. 热点区域预测:模型预测出 MEFV 基因的两个新热点区域和一个耐受位点,虽然在预测热点区域时存在一些局限性,但总体表现出较高的准确性。

研究结论与意义

研究人员开发的七层级分类系统和刚性、自适应分类器,显著提高了 MEFV 基因变异分类的准确性。该研究不仅确定了新的热点区域,为功能研究提供了有价值的线索,还建立了一种可扩展到其他基因的分类方法,为精准基因组医学的发展奠定了基础。同时,研究也指出了当前研究的局限性,如对计算机工具的依赖、异常值分析导致的变异丢失等,为后续研究指明了方向。这一研究成果为临床医生和研究人员在自身炎症性疾病领域提供了重要的参考,有望推动精准医疗的进一步发展。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号

生物通精彩推荐 • 《Nature Methods》scNET:整合单细胞基因表达数据与蛋白质相互作用,解锁细胞奥秘 • Sirt1 通过 PHD3/HIF-1α 通路减轻心肌梗死中缺氧诱导的心肌细胞凋亡,为心脏健康带来新希望