编辑推荐:
为解决确定与复杂疾病相关的特定结构域的难题,研究人员开展了基于异质网络预测蛋白质结构域与疾病潜在关联的研究。结果显示,基于 XGBOOST 算法的二元分类模型表现优异,AUC 达 0.94。该研究有助于理解复杂疾病机制,推动药物研发和个性化治疗。
在生命科学的探索旅程中,人类对复杂疾病的研究不断深入。随着基因 - 疾病关联研究的推进,像人类基因组计划、HapMap 项目,以及 GWAS 和测序研究等,已经确定了超过 60,000 种与人类疾病和性状相关的遗传关联。然而,从这些与疾病相关的基因深入到特定的蛋白质结构域,却是一项极具挑战性的任务。
蛋白质结构域作为蛋白质的保守功能单元,在蛋白质发挥功能的过程中起着关键作用。多数蛋白质由一个或多个结构域组成,不同蛋白质中的相同结构域能捕获特定功能。如果一个与疾病相关的基因编码的蛋白质包含多个结构域,那么确定其中哪个结构域真正与疾病相关就变得尤为重要。因为这不仅能极大地提升我们对复杂疾病的理解,还能推动药物研发和个性化治疗的进程。但目前,基于结构的蛋白质结构域与疾病关联的预测仍是一个相对较新的领域,这一现状促使河南大学城建学院和中南大学的研究人员开展了相关研究。
研究人员构建了一个包含结构域 - 蛋白质关联、疾病相似性、结构域 - 疾病关联、蛋白质 - 疾病关联以及蛋白质相互作用的全球异质信息网络。在这个网络中,不同类型的节点通过各种关系相互连接。为了预测结构域与疾病之间的潜在关联,研究人员借鉴了元路径(meta - path)的概念。元路径定义了连接起始节点和结束节点的特定类型路径,不同的元路径具有不同的语义,其路径数量总和可用于评估节点间关联的强度。
研究人员从多个数据源收集了关于结构域、蛋白质和疾病的信息,构建了疾病相似性网络、结构域 - 蛋白质关联网络、蛋白质相互作用网络、蛋白质 - 疾病关联网络和结构域 - 疾病关联网络数据集。基于这些数据集,他们构建了全球异质网络G=(H,F),其中H=DUPUS,D、P和S分别代表网络中的结构域、蛋白质和疾病节点集合,F则包含了各种异质链接集合。同时,根据语义链接计算出五个邻接矩阵,用于后续分析。
接着,研究人员通过构建元路径来提取网络中结构域和疾病节点的拓扑特征。这些拓扑特征被编码在交换矩阵中,每个交换矩阵代表一种特定长度的元路径。为了使特征更具代表性,研究人员还使用随机游走(Random Walk,RW)算法对路径数量进行了归一化处理。在此基础上,研究人员基于 XGBOOST(eXtreme Gradient Boosting)算法构建了二元分类模型。XGBOOST 是梯度提升算法的优化版本,用于预测结构域与疾病之间的潜在关联。在训练模型时,研究人员将收集到的 666 个结构域 - 疾病关联作为正样本,按照 1:1 的比例随机组合不相关数据作为负样本。训练集占总数据集的三分之二,测试集占三分之一。
为了评估模型的预测性能,研究人员采用了受试者工作特征曲线下面积(AUC)和F1分数两个指标。在一系列实验中,研究人员首先对 XGBOOST 算法的参数进行了调优,通过网格搜索确定了 n_estimators、max_depth、min_child_weight、gamma、colsample_bytree、reg_alpha 等参数的最优值,并使用 3 折交叉验证评估模型性能。结果显示,经过参数调优后的 XGBOOST 模型在预测结构域 - 疾病关联方面表现出色。
研究人员还探究了 RW 归一化对模型性能的影响。他们构建了两组拓扑特征,Feature - I 包含 27 个交换矩阵编码的所有路径总数,Feature - II 则是对 Feature - I 进行 RW 归一化后得到的包含 54 个拓扑特征的集合。在 XGBOOST、随机森林(Random Forest,RF)、支持向量机(Support Vector Machine,SVM)和朴素贝叶斯(Naive Bayes,BYS)四种模型上的实验结果表明,所有模型在 Feature - II 上的预测性能均优于 Feature - I,这表明 RW 归一化能够通过丰富特征空间显著提升预测性能。
此外,研究人员还研究了元路径长度对模型性能的影响。他们构建了四组包含不同长度元路径的拓扑特征集(TF1、TF2、TF3 和 TF4),结果发现基于 TF3 的模型在所有评估指标上均达到最大值,而基于 TF1 的模型表现最差。随着元路径数量的增加,XGBOOST 模型的预测性能有所提升,但 TF4 的性能比 TF3 略差,因此研究人员在本研究中仅考虑长度小于 5 的元路径。
最后,研究人员将 XGBOOST 模型与 RF、SVM 和 BYS 等其他机器学习算法进行了比较。结果表明,所有模型在预测结构域 - 疾病关联方面都取得了令人满意的结果,但 XGBOOST 模型的预测性能最佳,其 AUC 分数达到 0.9461,F1分数为 0.8942,明显优于其他模型。
在结论和讨论部分,研究人员指出,他们开发的基于元路径拓扑特征构建二元分类器预测结构域 - 疾病关联的方法,在独立测试集中展现出强大的预测能力。这一研究不仅证明了 XGBOOST 模型在该领域的优越性,还为后续研究提供了新的方向。未来,研究人员计划收集更多多组学数据来进一步优化预测性能,从而更深入地探究结构域与疾病之间的关联,为药物研发和个性化治疗复杂疾病提供更有力的支持。这项研究成果发表在《BMC Genomics》上,为生命科学和健康医学领域在复杂疾病研究方面提供了重要的参考和借鉴。