基于AlphaFold2预测的Pfam结构域变异性分析揭示蛋白质功能注释新视角

【字体: 时间:2025年08月04日 来源:Proteins: Structure, Function, and Bioinformatics 2.8

编辑推荐:

  这篇综述通过整合AlphaFold2预测的蛋白质结构与Pfam数据库,系统分析了16种模式生物中Pfam结构域的结构变异性。研究采用FoldSeek聚类和凝聚层次聚类方法,发现20%-40%的Pfam家族成员缺乏规则二级结构,揭示了序列保守性与结构多样性之间的显著差异。通过典型案例(如HIT基序PF01230、结节蛋白PF02451等),论证了结构聚类在识别假阳性预测、指导Pfam家族优化(如eRF1结构域拆分)中的价值,为蛋白质功能注释的精准化提供了新策略。

  

结构变异性揭示Pfam结构域的功能复杂性

ABSTRACT

理解蛋白质的生物学功能是功能基因组学的核心目标。作为蛋白质的功能单元,Pfam结构域被广泛用于功能预测。尽管其序列变异性已被多次报道,但结构变异性研究仍存在空白。本研究从AlphaFold2数据库的16种模式生物蛋白质组中提取Pfam结构域,发现20%-40%的家族成员缺乏规则二级结构,表明存在显著的结构多样性。通过FoldSeek和凝聚聚类分析,揭示了Pfam家族的结构变异性,并探讨了其对功能预测的影响。

Abbreviations

关键缩写包括:农业研究服务(ARS)、关键评估结构预测(CASP)、美国能源部(DOE)、欧洲生物信息学研究所(EBI)、隐马尔可夫模型(HMM)、蛋白质数据库(PDB)等。

1 Introduction

蛋白质结构域作为功能模块,其注释对比较分析和功能预测至关重要。尽管序列注释仍是主流方法(如Pfam),但AlphaFold2等AI技术的突破使结构预测精度达到实验水平(CASP15中全局距离测试参数>80)。然而,蛋白质在自然状态下存在构象集合,受序列变异、翻译后修饰、配体结合等因素影响,导致预测结构存在偏差。本研究结合AlphaFold2和Pfam,探索结构变异对功能预测的影响。

2 Methods

2.1 数据生成

从EBI下载16种模式生物的AlphaFold2预测结构,剔除208个多重预测蛋白。使用InterProScan(v100)预测Pfam结构域,通过PDB-tools提取结构域区域,STRIDE(v0.9.9)预测二级结构(α-螺旋、β-折叠、混合型或卷曲)。

2.2 结构聚类与合并

采用FoldSeek(v10.941cd33)初步聚类,随后通过凝聚聚类(TM-score>0.6阈值)合并相似簇,选择pLDDT评分最高的代表结构。

2.3 系统发育树构建

使用FAMSA对齐序列,ClipKIT修剪后,通过ninja包构建邻接树,FigTree可视化。

3 Results and Discussion

3.1 Pfam家族的结构变异性证据

分析显示,α-螺旋和β-折叠结构域的pLDDT评分较高,而卷曲结构呈双峰分布(图1B)。约20%-40%的Pfam家族成员缺乏规则二级结构(图1C),暗示序列保守性≠结构保守性。

3.2 凝聚聚类优化结构分类

FoldSeek初始聚类产生2497个多簇家族,经凝聚聚类合并后降至567个(图2C)。簇内TM-score中位数从0.53降至0.43(图2B),有效捕获结构差异。

3.3 低置信度预测与结构离群值

单例簇(如PF01230的A0A0N7KQE7)pLDDT中位数仅48.2,显著低于非单例簇(74.8)(图3B)。HIT基序案例中,单例簇缺乏保守序列模体且TM-score仅0.32(图3D-F),提示假阳性预测风险。

3.4 结节蛋白PF02451的结构多样性

该家族中,单例簇(如P04144)呈现非典型卷曲或短螺旋(图4C),与典型X型螺旋 motif(A0A0R0GXC2)形成对比(图4B),凸显需多结构比较的必要性。

3.5 结构聚类指导Pfam家族优化

IPP转移酶PF01715家族中,33个蛋白的HMM边界分化为2-72和169-232两个区域(图5C),支持结构域拆分。eRF1家族(PF03463)通过聚类和系统发育分析(图5D-F),成功拆分为终止因子eRF1和mRNA监视蛋白Pelota_N(PF26356)。

3.6 角蛋白相关蛋白的特殊折叠

PF13885家族中,仅6/120个蛋白含β-折叠结构(图6B-C)。序列重复(如Q9BYR4的10aa重复)可能诱导AlphaFold2预测非天然β-折叠(图S4C),而AlphaFold3能部分纠正此偏差。

4 Conclusions

本研究通过整合AlphaFold2与Pfam,揭示了结构域预测中的系统性偏差。结构聚类不仅能识别假阳性、优化家族注释(如PF03463拆分),还凸显了多结构比较对功能预测的重要性。未来需开发更精准的预测流程,以捕捉蛋白质的动态结构空间。

(注:全文严格基于原文数据,案例引用均来自文中图表,未添加主观推断)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号