深度学习后处理提升蛋白质二级结构预测精度

【字体: 时间:2025年05月07日 来源:Computational and Structural Biotechnology Journal 4.5

编辑推荐:

  蛋白质二级结构预测(PSSP)在生物信息学中极具挑战。研究人员运用卷积神经网络(CNN)结合子采样海森牛顿(SHN)方法及嵌入技术开展研究。结果显示,后处理技术提升了预测性能。这为蛋白质结构与功能研究提供了更有效的方法。

  在生命科学领域,蛋白质如同微观世界里的神奇工匠,它们参与着生物体中各种至关重要的化学反应,是生命活动的直接执行者。想要深入了解蛋白质的功能,就必须知晓其氨基酸在三维空间中的相互作用和折叠方式。蛋白质结构分为四级,其中二级结构(指蛋白质多肽链局部区域因主链肽基团间形成氢键而发生的折叠)的预测却困难重重。目前,虽然已知数百万种蛋白质的一级结构(即氨基酸线性序列),但确定其二级和三级结构的实验方法既耗时又昂贵,这严重阻碍了对蛋白质结构和功能的研究。因此,开发高效准确的蛋白质二级结构预测方法迫在眉睫。
为了解决这一难题,来自未知研究机构的研究人员展开了深入研究。他们的研究成果发表在《Computational and Structural Biotechnology Journal》上。研究人员利用从语言模型中提取的嵌入(embeddings)作为卷积神经网络(Convolutional Neural Network,CNN)的输入,同时采用子采样海森牛顿(Subsampled Hessian Newton,SHN)方法训练 CNN 来预测蛋白质的二级结构。经过一系列实验,研究人员发现,这种方法取得了不错的成绩。在未使用任何后处理技术时,在 CB513 数据集上的 Q3(每残基预测准确率)精度平均达到 79.96%,在 PISCES 数据集上达到 81.45%。而应用集成和过滤技术后,预测性能显著提升,CB513 数据集上的 Q3 精度提高到 93.65%,PISCES 数据集上提高到 87.13% 。在 CASP13 数据集上测试时,随着后处理窗口大小增加,预测性能也随之提升,当使用最大后处理窗口(受限于 CASP13 数据集中最小的蛋白质)时,Q3 精度达到 98.12%,Segment Overlap(SOV,用于衡量预测结构整体质量)分数达到 96.98。此外,研究还表明,嵌入的输入表示与从多序列比对中提取的表示性能相当。这一研究成果意义重大,为蛋白质结构和功能的研究提供了新的思路和方法,有助于推动生物信息学领域的发展。

在研究过程中,研究人员主要采用了以下关键技术方法:

  1. 数据集选择:使用了 CB513、PISCES 和 CASP13 三个基准数据集。CB513 用于调整网络超参数,PISCES 帮助模型更好地学习数据模式,CASP13 用于测试。
  2. 模型构建:构建了包含四个活跃层的 CNN,前三层为卷积层,最后一层为全连接层。采用 SHN 方法训练模型,以均方误差(MSE)为损失函数。
  3. 数据表示:从 ProtBert 模型中提取嵌入作为 CNN 的输入,将每个氨基酸残基表示为 1024 维向量,再转换为 32×32×1 的矩阵。
  4. 后处理技术:运用集成学习(训练多个模型并结合其预测结果)和过滤技术(如支持向量机 SVM、随机森林 RF、决策树 DT 等算法,以及基于经验的外部规则 ER)来提升预测准确性。

研究结果具体如下:

  1. 模型训练与优化:通过 10 折交叉验证在 CB513 数据集上进行实验,选择预测准确率最低的第 8 折作为验证集来调整超参数。去掉池化层后,模型性能得到提升。
  2. 不同方法的预测性能:对 CB513 和 PISCES 数据集进行实验,结果表明使用 RF 过滤技术结合集成方法能获得最佳结果。在 CB513 数据集上,Q3 精度达到 93.65%,SOV 分数为 89.63;在 PISCES 数据集上,Q3 精度为 87.13%,SOV 分数为 84.28。在 CASP13 数据集上,当系统分别在 CB513 和 PISCES 数据集上训练时,经 RF 过滤后的集成结果也能获得较高的 Q3 精度和 SOV 分数。
  3. 后处理窗口大小的影响:研究发现,随着后处理窗口大小增加,预测准确率和 SOV 分数都有所提高。较大的窗口尺寸能捕捉更长范围的连接,从而提升预测性能。
  4. 不同数据表示的比较:对比使用嵌入和多序列比对(MSA)两种数据表示方法,发现两者在预测性能上差异不大,且过滤技术对两者的 Q3 精度和 SOV 分数提升效果相近。

研究结论和讨论部分表明,利用从语言模型中提取的嵌入作为 CNN 的输入,结合 SHN 方法训练模型,能够有效预测蛋白质的二级结构。后处理技术在提升预测性能方面起着关键作用,尤其是窗口大小对结果影响显著。此外,嵌入输入表示在某些方面优于传统的 MSA 表示,为蛋白质二级结构预测提供了更便捷的方式。这一研究成果为生物信息学领域的蛋白质研究开辟了新路径,有望在未来进一步推动蛋白质结构和功能研究的发展,帮助人们更好地理解生命过程,为相关疾病的研究和治疗提供理论支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号