基于集成机器学习和量子神经网络的氨基酸序列无序区域分类:开启蛋白质研究新征程

【字体: 时间:2025年05月07日 来源:Computational Biology and Chemistry 2.6

编辑推荐:

  在蛋白质研究中,传统的 Uversky plot 等方法难以准确区分蛋白质的无序区域(IDRs)和有序区域。研究人员整合机器学习(ML)、深度神经网络(DNN)和量子神经网络(QNN)开展研究,构建的元模型分类准确率达 0.85,为蛋白质研究提供了新方法。

  在蛋白质的奇妙世界里,蛋白质的结构与功能一直是科学家们深入探索的核心领域。其中,准确预测和分类蛋白质中的内在无序区域(Intrinsically Disordered Regions,IDRs)至关重要。IDRs 在正常生理条件下缺乏稳定的三维结构,却在信号传导、调控和分子识别等众多关键生物学过程中发挥着不可或缺的作用 。
然而,传统的研究方法却面临着诸多困境。以广泛使用的 Uversky plot 为例,它仅依赖于疏水性和净电荷这两个特征来识别内在无序蛋白质(Intrinsically Disordered Proteins,IDPs)。这种简单的判断方式,在面对复杂的蛋白质序列时,就显得力不从心了,无法精准地对 IDRs 进行分类。后续虽然发展出了像 PONDR(利用神经网络)和 DISOPRED(运用支持向量机)这样更先进的方法,但它们在探究区分 IDRs 和有序区域的关键特征相互作用方面,依旧存在明显的不足,也常常忽视特征之间的层级和并行交互关系。因此,开发更有效的方法来实现精准的 IDR 分类,成为了蛋白质研究领域亟待解决的重要问题。

为了突破这一困境,来自国外的研究人员踏上了探索之路。他们开展了一项极具创新性的研究,旨在通过整合机器学习(Machine Learning,ML)、深度神经网络(Deep Neural Networks,DNN)和量子神经网络(Quantum Neural Networks,QNN),提升 IDR 分类的准确性,并挖掘氨基酸序列中的关键特征相互作用。研究成果发表在《Computational Biology and Chemistry》上,为蛋白质科学的发展注入了新的活力。

研究人员在这项研究中运用了多种关键技术方法。首先,从 DisProt 数据库获取原始数据集,该数据集包含 7980 个蛋白质序列。为解决类别不平衡问题,对数据进行下采样处理,最终得到 2296 个序列,并将其分为用于模型训练和验证的 1596 个序列,以及作为独立测试集的 700 个序列 。然后,从氨基酸序列中提取生物物理特征,如电荷分布、疏水性和结构特性等,为后续的模型预测提供数据支持。最后,构建集成了 ML、DNN 和 QNN 的元模型,利用不同模型的优势进行 IDR 分类。

研究人员通过一系列研究得出了许多重要结论。在数据集方面,经过处理后的数据为后续研究奠定了良好基础。在模型构建与性能评估上,研究构建的元模型展现出了强大的能力,其分类准确率达到了 0.85,这一成绩超越了单个分类器。深入探究发现,在 IDR 分类中,埋藏氨基酸(Buried amino acids)起着关键作用,同时,标度疏水性(Scaled hydrophobicity)与大的、埋藏的和带电荷的氨基酸之间的相互作用也意义重大。ML 在其中主要负责捕捉独立特征,DNN 专注于捕捉特征之间的相互作用,而 QNN 则用于模拟特征之间的高阶依赖关系和非线性多变量关系。

这项研究成果具有重要意义。从方法学角度看,它创新性地将 QNN 应用于 IDR 分类,展示了 QNN 在生物信息学领域的巨大潜力,为后续研究开辟了新的方向。从研究深度上,对埋藏氨基酸以及特定氨基酸相互作用的发现,深化了人们对蛋白质无序区域特征的理解。整体而言,该研究为计算蛋白质科学的发展提供了坚实的理论和方法支持,有助于推动蛋白质功能在各种生物学背景下的研究,让人们朝着更深入理解蛋白质奥秘的目标又迈进了一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号