HPOseq:基于蛋白序列预测蛋白 - 表型关系的深度集成模型,助力精准医学发展

【字体: 时间:2025年04月23日 来源:BMC Bioinformatics 2.9

编辑推荐:

  理解蛋白质与疾病表型关系对疾病早检和个性化医疗意义重大。研究人员开展 “基于蛋白序列预测蛋白 - 表型关系” 的研究,提出 HPOseq 模型。该模型在预测中表现优异,为揭示疾病机制和药物研发提供支持。

  在生命科学的奇妙世界里,蛋白质就像一个个勤劳的 “小工匠”,它们在生物系统中承担着各种各样至关重要的任务,比如催化化学反应、传递信号以及维持细胞的结构稳定等。搞清楚哪些蛋白质与特定的疾病表型相关联,就如同找到了打开疾病奥秘之门的钥匙,对于疾病的早期检测和精准治疗有着不可估量的价值。在这个精准医疗的时代,分析与患者特定表型相关的蛋白质,更是能为早期疾病诊断和个性化治疗提供关键线索。
然而,传统的生物学实验方法虽然能够较为可靠地揭示蛋白质和疾病表型之间的关系,但却如同一场耗时又耗钱的 “马拉松”。随着生物学和计算机技术的飞速发展,大量的数据库应运而生,像全球蛋白质数据库 UniProt,它就像一个装满蛋白质信息的 “大宝库”,为研究提供了丰富的资源。还有人类表型本体(HPO)数据库,它不仅能系统地描述和规范人类疾病表型,还给出了蛋白质和表型之间已验证的关系。基于这些数据库,借助各种建模技术和计算机的强大运算能力,不少计算方法被提出来预测蛋白质的相关表型。

但目前的情况并不乐观,被进行表型注释的蛋白质数量还很有限。大多数蛋白质目前仅仅只有序列信息,其他关键信息要么缺失,要么获取的话就得进行额外的生物学实验,这无疑给相关研究戴上了 “枷锁”。为了解决这些难题,新疆大学和新疆医科大学等机构的研究人员开展了一项重要研究。他们提出了一个名为 HPOseq 的深度集成模型,这个模型仅依靠氨基酸序列就能预测蛋白质 - 表型关系。相关研究成果发表在了《BMC Bioinformatics》上。这一研究成果意义非凡,它为揭示疾病机制、药物研发等提供了有力的支持,有望推动精准医学向前迈出一大步。

研究人员在开展这项研究时,运用了多个关键技术方法。首先,从 HPO 数据库获取人类表型本体术语与基因的关系数据,借助 UniProt 数据库的映射工具,将基因对应到相应的蛋白质,并进行筛选和注释,从而构建高质量的数据集。在模型构建方面,使用 1D 卷积神经网络(1D - CNN)从氨基酸序列中提取特征,还利用 BLAST 工具计算蛋白质序列相似性,构建蛋白质 - 蛋白质网络,结合变分图自动编码器(VGAE)生成低维向量,最后通过集成模块融合两个基础模型的预测结果。为了评估模型性能,采用 5 折交叉验证的方法,并使用 AUPR 和Fmax这两个指标进行衡量。

下面来看看具体的研究结果。在与 7 种基线方法的性能比较中,研究人员通过 5 折交叉验证实验发现,HPOseq 在 AUPR 和Fmax这两个关键指标上表现最佳,其 AUPR 值达到 0.3244,Fmax值达到 0.3869 ,分别比表现第二好的方法提高了 1.7% 和 1.8%。这表明 HPOseq 从蛋白质氨基酸序列组成和序列相似性两个维度提取特征,生成了更全面的特征表示,进而提升了预测性能和模型的稳健性。

在参数分析方面,研究人员对 VGAE 的特征嵌入维度、FNN 的隐藏层维度以及相似性网络构建的 E 值阈值进行了实验分析。结果显示,当 FNN 和 VGAE 的隐藏层维度都设置为 2048 时,HPOseq 能达到最优的预测效果;而在相似性网络构建中,当 E 值阈值为 0.01 时,模型的 AUPR 和Fmax值最高。

研究人员还进行了消融研究。在模块消融分析中发现,整合多种特征进行预测并融合预测输出的方法,明显优于仅依赖单一序列特征的预测策略,这凸显了结果融合在模型设计中的重要性,也揭示了简单平均融合的局限性。在不同相似性网络构建方法的比较中,发现 BLAST 工具在计算序列相似性时,优先考虑序列全局比对信息,能为下游预测任务提供高质量的网络,而其他如余弦相似性、皮尔逊相似性和史密斯 - 沃特曼相似性计算方法生成的网络,无法准确全面地反映氨基酸序列之间的相似性。在融合方法的敏感性分析中,研究人员比较了加权求和、FNN、平均、基于 AUPR 的权重设置和基于Fmax的权重设置等融合方法,结果表明,HPOseq 的集成模块能够独立学习不同特征预测结果中不同 HPO 术语的预测权重,相比其他融合策略更具优势,能使模型为最准确的特征预测结果分配最大权重,同时减少错误预测模型对结果的影响。

最后在案例研究中,以 HPO 术语为中心进行蛋白质预测时,研究人员针对与肺炎(HP:0002090)相关的蛋白质进行预测,从新预测的候选蛋白质中找出得分最高的前 10 个进行验证,结果发现其中 6 个在后续的相关数据中得到了验证。以蛋白质为中心进行 HPO 术语预测时,研究人员用训练好的模型对 3 个未包含在训练数据中的蛋白质(V9HW98、A0PJI1、O14997)进行 HPO 术语预测,并通过查阅文献获得了支持,这进一步证实了该方法在识别新的蛋白质 - HPO 术语注释方面的实用性。

综上所述,研究人员提出的 HPOseq 模型通过构建两个基于氨基酸序列的子模型,从不同角度预测蛋白质的表型注释,再利用集成模型融合预测结果,实现了最终的预测目标。大量实验验证表明,该模型能有效预测人类蛋白质 - 表型关系。不过目前研究人员仅将此问题当作传统的多标签分类任务,仅深入探讨了从氨基酸序列中提取蛋白质特征。未来的研究可以进一步挖掘 HPO 数据库中丰富的表型本体数据,探索利用 HPO 术语节点之间的关系来更好地服务于蛋白质 - 表型关系预测,为生命科学和医学研究开辟更广阔的道路。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号