编辑推荐:
研究人员开发 PPAR 算法预测孟德尔及罕见病致病基因,性能优于同类方法,为疾病诊断提供新途径。
孟德尔疾病与罕见遗传病诊断难题亟待攻克
在生命科学和健康医学领域,孟德尔疾病和罕见遗传病的诊断一直是一大难题。这些疾病往往具有复杂的遗传机制,确诊过程犹如在茫茫基因海洋中捞针。临床遗传学家们需要耗费大量精力,查阅海量文献和数据库,试图将患者的表型与致病基因型关联起来。
随着下一代测序技术的发展,虽然能检测出大量的基因变异,但这也使得诊断工作更加复杂。面对如此庞大的基因数据,专家们难以快速准确地确定致病基因,这不仅延长了诊断时间,还可能影响患者的治疗策略和预后。因此,开发一种高效的方法来优先筛选致病基因,成为了临床诊断的迫切需求。
梅奥诊所研究人员开辟诊断新路径
为了解决这一难题,美国梅奥诊所(Mayo Clinic)的研究人员开展了一项极具意义的研究。他们开发了一种名为表型优先排序和分析罕见病(Phenotype Prioritization and Analysis for Rare Diseases,PPAR)的算法,旨在利用患者的人类表型本体(Human Phenotype Ontology,HPO)术语来预测和排序致病基因。相关研究成果发表在《BMC Bioinformatics》上。
主要技术方法
研究人员利用临床知识图谱(Clinical Knowledge Graph,CKG),它整合了 26 个生物医学数据库和 10 个本体的数据,包含 2000 万个节点和 2.2 亿个关系,是一个庞大而全面的生物知识网络。基于此,研究人员使用 Neo4J 图数据库平台和 FastRP(Fast Random Projection)算法生成基因和 HPO 节点的嵌入向量,以此来捕捉基因和表型节点之间的关系。
在构建 PPAR 模型时,研究人员综合考虑了多种因素,如 HPO 术语的信息内容(Information Content,IC)、基因与 HPO 术语之间链接预测的概率、基因和 HPO 节点嵌入向量的余弦相似性,以及与患者确定的 HPO 术语相关的父基因评分等。为了验证 PPAR 的性能,研究人员使用了两个队列进行测试,分别是梅奥诊所内部的罕见病队列(MCRD)和公开的发育障碍队列(DDD)。
研究结果
- 链接预测结果:研究人员评估了四种链接操作方法(Hadamard、Average、L1 和 L2)和四种机器学习算法(XGBoost、Na?ve Bayes、Random Forest 和 Multi-Layer Perceptron,MLP)。结果显示,Hadamard 乘积链接方法与 MLP 生成的概率相结合,在准确性指标上表现最佳,平均准确率达到 0.88;而在 AUCPR(Area Under the Precision-Recall Curve)指标上,L1 链接方法与 Na?ve Bayes 概率相结合表现较好,平均 AUCPR 为 0.75,Hadamard 乘积方法与 MLP 生成的概率相结合的平均 AUCPR 为 0.73。基于这些结果,研究人员选择 MLP 生成的概率与 Hadamard 乘积链接操作来开发 PPAR。
- PPAR 性能评估:研究人员将 PPAR 与其他基于 HPO 的方法(PCAN、Phen2Gene、GADO 和 CADA)进行比较。在 DDD 数据集中,PPAR 在 70% 的病例中识别出了首要致病基因,在排名前 10 的基因中,PPAR 识别出了 82% 的病例;在 MCRD 队列中,PPAR 在 11% 的病例中识别出了首要致病基因,在排名前 10 的基因中,PPAR 识别出了 27% 的病例。相比之下,其他方法在这些队列中的表现均不如 PPAR。
- 案例分析:研究人员还详细分析了一个病例,该患者表现出 15 种不同的表型。PPAR 模型将 NR2F1 基因列为首要致病基因,通过对父基因连接的评估发现,有四个 HPO 术语与 NR2F1 基因相连,最终临床报告也证实了 NR2F1 基因是导致患者疾病的原因。
研究结论与意义
PPAR 是一种基于临床知识图谱的基因 - HPO 优先排序算法,它在预测孟德尔疾病和罕见遗传病的致病基因方面表现出了较高的准确性,优于其他基于 HPO 的方法。该算法不需要患者的变异调用格式(Variant Call Format,VCF)文件,仅需 HPO 术语作为输入,为临床遗传学家提供了一种更安全、更便捷的基因优先排序方法。它可以帮助临床医生在解读临床外显子组或基因组测序数据时,快速筛选出可能的致病基因,也可用于预测试评估,指导针对性的检测,从而提高罕见病和孟德尔疾病的诊断效率,为患者的精准治疗提供有力支持。
然而,PPAR 模型也存在一定的局限性。例如,将新信息整合到 CKG 中需要重新生成 FastRP 嵌入向量和重新训练 PPAR 模型,这需要大量的计算资源和时间。此外,CKG 中的信息更新不及时,可能导致模型错过一些关键的基因 - 表型关联。尽管如此,PPAR 的出现仍然为罕见病和孟德尔疾病的诊断带来了新的希望,为后续的研究和临床应用奠定了坚实的基础。
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�
涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�