基于正负样本的疾病候选基因预测:解锁遗传疾病研究新路径

【字体: 时间:2025年04月17日 来源:BMC Medical Genomics 2.1

编辑推荐:

  在遗传疾病研究中,疾病基因预测至关重要。研究人员开展了 “Disease candidate genes prediction using positive labeled and unlabeled instances” 主题研究,提出 S - PUL 方法。该方法在多种疾病预测中效果优于其他研究,有助于更准确地识别疾病基因,推动遗传疾病治疗与预防。

  在生命科学的神秘领域中,基因宛如隐藏在黑暗中的密码,掌控着人类健康与疾病的钥匙。遗传疾病,这些由基因缺陷引发的病症,像难缠的幽灵,从祖辈悄然传递,时不时给人们带来痛苦与挑战。长久以来,医生和健康研究者们都在努力攻克遗传疾病治疗和预防的难题,而预测疾病基因、了解其运作机制,就成为了这场战斗的关键 “导火索”。
传统的实验方法在探寻疾病基因时,就像在黑暗中摸索,不仅耗费大量的资金和时间,还难以精准定位。随着科技的发展,机器学习技术逐渐崭露头角,为这一领域带来了新的曙光。不过,在利用机器学习预测疾病基因的过程中,研究人员面临着一个棘手的问题:数据集中缺乏明确的负样本。就好比在一场寻宝游戏中,没有清晰的 “非宝藏” 标识,这使得准确找到真正的 “宝藏”—— 疾病基因变得困难重重。

在这样的背景下,来自伊朗德黑兰塔里巴特莫达雷斯大学(Tarbiat Modares University)计算机工程系的 Sepideh Molaei 和 Saeed Jalili 勇敢地迎接挑战,开展了相关研究。他们提出了一种创新的方法 —— 基于评分的阳性无标签学习(Scored - Positive Unlabeled Learning,S - PUL),旨在更精准地预测疾病候选基因。这项研究成果发表在《BMC Medical Genomics》上,为遗传疾病研究领域注入了新的活力。

研究人员为开展这项研究,运用了多个关键技术方法。首先是数据归一化,通过特定公式对基因表达数据进行处理,消除不同基因表达范围差异带来的影响。在可靠负基因提取环节,运用 Robust Gaussian、KNN、Parzen window 和 SVDD 等一类分类算法,从无标签样本中筛选出可靠的负基因。疾病二元模型学习时,借助支持向量机(SVM)算法构建模型,并通过设计特定的筛选流程确定正训练数据。最后在疾病候选基因预测和排序步骤,依据基因与疾病基因的距离、与支持向量的距离等因素设计评分算法,实现对基因的预测和排序。

下面来看看具体的研究结果:

  • 评估提取的可靠负基因:在选择一类学习算法时,研究人员对比了 SVDD、Robust Gaussian、KNN 和 Parzen Window 这几种算法。通过两种评估方法发现,SVDD 算法在提取可靠负基因方面表现最为出色,能标记出最多比例的负样本,且提取的负基因可靠性较高。
  • 评估二元分类算法性能和选择疾病基因:研究人员对五种二元分类算法进行了评估,发现 S - PUL 方法中的过滤疾病基因方式能有效提升召回率(Recall)、精度(Precision)和 F1值,且 SVM 二元模型学习算法的效率高于其他算法,因此被选用。
  • 评估疾病候选基因预测和排序:在这部分研究中,研究人员对过滤器 3、第二分数和第三分数的使用效果分别进行了评估。结果显示,实施过滤器 3 能提高 S - PUL_V2 版本在所有疾病中的召回率;使用第二分数的 S - PUL_V3 版本在保持召回率的同时提高了精度;使用第三分数的 S - PUL_V4 版本显著提高了精度且维持了召回率。综合来看,S - PUL_V5 版本在所有评估指标上都优于其他版本。
  • 比较 S - PUL 方法与其他方法的效率:将 S - PUL 方法与以往的研究方法进行对比,发现 S - PUL 方法在多种疾病预测中的精度和召回率都有显著提升。例如,在结肠癌(Colon)、前列腺癌(Prostate)等疾病中,召回率和精度都有不同程度的增加;在神经系统疾病(Neurological disease)中,S - PUL_V5 版本的 AUC 值相比之前的最佳方法提升了 8.82%。与生物学家的预测结果相比,S - PUL 方法在预测疾病基因方面也表现出较高的准确性。

研究结论表明,S - PUL 方法通过提取可靠负基因、合理筛选正训练基因以及运用有效的评分算法,在疾病候选基因预测和排序方面展现出强大的性能。该方法预测的疾病基因与 2015 - 2016 年、2017 - 2020 年已知疾病基因的平均对应率分别达到 99.51% 和 98.54%,同时在评估疾病基因时,被误判为负基因的平均比例仅为 96.74%。这一成果为遗传疾病的研究提供了更精准、有效的手段,有助于加速遗传疾病治疗药物的研发进程,为人类健康事业带来了新的希望。

不过,研究人员也意识到研究存在一些不足并对未来研究提出了建议。例如,S - PUL 方法中距离划分和基因评分方式有待改进;可以借助蛋白质 - 蛋白质相互作用网络(PPI network)等更多信息源提升负基因的可靠性;除了现有的统计测量方法,还可考虑更多遗传因素对疾病形成的影响;尝试运用深度学习方法优化疾病候选基因的识别和预测结果。这些建议为后续研究指明了方向,有望推动该领域取得更深入的进展,让我们在攻克遗传疾病的道路上迈出更坚实的步伐。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号