机器学习助力遗传检测变异分类:减少意义未明变异(VUS),提升诊断效能

【字体: 时间:2025年04月24日 来源:Human Genetics 3.8

编辑推荐:

  在遗传检测中,意义未明变异(VUS)给患者和临床医生带来困扰。研究人员开展利用基因型和表型数据,借助机器学习进行群体规模变异分类的研究。结果显示该方法可改善变异分类、减少 VUS,对临床遗传诊断意义重大。

  在遗传检测飞速发展的当下,遗传检测在遗传性疾病诊断中发挥着越来越重要的作用。然而,变异分类却成了其中的一大难题。意义未明变异(VUS)不断被发现,由于现有的证据和方法无法将其明确归类为致病性或良性变异,这让患者陷入对自身健康状况的担忧之中,也让临床医生在诊断和治疗时面临诸多不确定性 。就好比在迷雾中航行,没有明确的方向。虽然临床数据在结合其他证据时能有效减少 VUS,但由于数据的稀疏性、非特异性和噪声干扰,量化患者观察数据的价值困难重重,导致这些临床数据未能得到充分利用。
为了突破这一困境,来自国外多个机构的研究人员展开了深入研究。他们旨在探索能否通过一种机器学习方法,充分利用基因型和表型数据,改善变异分类,进而减少 VUS 的数量。这项研究成果发表在《Human Genetics》杂志上,为遗传检测领域带来了新的曙光。

研究人员在开展研究时,主要运用了以下几种关键技术方法:

  • 建立临床变异模型(CVM):该模型包含两个关键的二元分类步骤。通过分析大量临床数据,从患者检测申请表格中提取信息,将患者分为分子诊断组、对照组和不确定组。
  • 利用大语言模型和机器学习算法:基于 Transformer 的大语言模型(Gatortron-S, UNFLP)经过在多种生物医学文本上的预训练,再通过课程学习在患者数据上进行微调,然后结合其他临床数据,训练 XGBoost 模型来生成患者得分。
  • 构建贝叶斯模型:开发了定制的贝叶斯分层概率图模型(PGM),通过随机变分推理,结合患者得分和变异标签,推断变异的致病性得分。

下面来看看具体的研究结果:

  • 研究人群和条件:研究纳入了 350 万接受临床遗传检测的患者,这些患者的基因型数据和临床信息被用于 CVM 的开发。其中,超过 280 万份检测申请表格包含自由文本,超过 230 万份包含至少一个 ICD - 10 代码。研究针对 1334 种独特的分子疾病条件构建了模型,涉及 1879 个独特基因。
  • 患者得分和变异得分模型的区分性能:在患者得分模型中,最终的测试集上,所有患者得分模型的 AUROCtest中位数为 0.82,其中 728 个(54.5%)模型的 AUROCpatient≥0.8。在变异得分模型中,所有变异得分模型的 AUROCtest中位数为 0.89,595 个在患者得分和变异得分模型上都表现出高性能(AUROCpatient≥0.8 且 AUROCvariant≥0.8)。
  • 对 VUS 分辨率的估计影响:在高性能模型中,5362 个 VUS 获得了高置信度的概率估计,这些估计可作为改善变异分类的新证据。这些变异在 200,174 名患者中被观察到,约占高性能模型中所有报告的 VUS 观察值的 23.4%,预计可使 VUS 观察值的中位数减少 15.7%。
  • 基因水平参数估计示例 - LDLR:以 LDLR 基因的高性能单基因模型为例,研究展示了基因水平参数(致病率、推断外显率和推断拟表型)的后验估计,以及变异得分对额外高或低患者得分观察的敏感性。
  • 正交验证:通过与基于进化序列保守性的深度学习模型(EVE)和基于分子功能数据的预测模型对比,CVM 的预测结果与之高度一致。对于 TSC2 基因,CVM 也能准确识别除特定外显子外的致病遗传变异。
  • 专家驱动的临床验证和患者影响:研究人员选取了 17 个基因的 11 个模型进行进一步验证。经过专家手动审查,93%(13/14)预测为致病的变异和 95%(155/163)预测为良性的变异得到确认。将模型预测纳入 Sherloc 后,这 17 个基因共解决了 1006 个独特的 VUS,使每个遗传疾病的 VUS 报告减少率在 9 - 49% 之间,影响了近 45,000 名患者。

研究结论表明,这种可扩展的机器学习方法,通过利用此前未充分利用的临床数据,有效改善了变异分类,减少了 VUS 的数量。这一成果对临床实践意义重大,它能够为临床医生提供更准确的遗传检测结果解读,减少患者的焦虑和不确定性。例如,在遗传性疾病的诊断中,医生可以更明确地判断患者的患病风险,从而制定更精准的治疗和筛查方案。

不过,该研究也存在一定的局限性。对于具有复杂遗传学的分子疾病条件,如具有多种遗传模式或分子机制的基因 - 疾病关联,处理起来存在困难。此外,机器学习普遍面临的样本外变异风险,以及模型训练中可能存在的标签循环问题,也需要进一步关注和解决 。但总体而言,这项研究为遗传检测领域开辟了新的道路,为未来更精准的遗传诊断和治疗奠定了坚实的基础。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号