
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于AlphaFold2预测的Pfam结构域变异性分析揭示蛋白质功能注释新视角
【字体: 大 中 小 】 时间:2025年08月04日 来源:Proteins: Structure, Function, and Bioinformatics 2.8
编辑推荐:
这篇综述通过整合AlphaFold2预测的蛋白质结构与Pfam数据库,系统分析了16种模式生物中Pfam结构域的结构变异性。研究采用FoldSeek聚类和凝聚层次聚类方法,发现20%-40%的Pfam家族成员缺乏规则二级结构,揭示了序列保守性与结构多样性之间的显著差异。通过典型案例(如HIT基序PF01230、结节蛋白PF02451等),论证了结构聚类在识别假阳性预测、指导Pfam家族优化(如eRF1结构域拆分)中的价值,为蛋白质功能注释的精准化提供了新策略。
结构变异性揭示Pfam结构域的功能复杂性
ABSTRACT
理解蛋白质的生物学功能是功能基因组学的核心目标。作为蛋白质的功能单元,Pfam结构域被广泛用于功能预测。尽管其序列变异性已被多次报道,但结构变异性研究仍存在空白。本研究从AlphaFold2数据库的16种模式生物蛋白质组中提取Pfam结构域,发现20%-40%的家族成员缺乏规则二级结构,表明存在显著的结构多样性。通过FoldSeek和凝聚聚类分析,揭示了Pfam家族的结构变异性,并探讨了其对功能预测的影响。
Abbreviations
关键缩写包括:农业研究服务(ARS)、关键评估结构预测(CASP)、美国能源部(DOE)、欧洲生物信息学研究所(EBI)、隐马尔可夫模型(HMM)、蛋白质数据库(PDB)等。
1 Introduction
蛋白质结构域作为功能模块,其注释对比较分析和功能预测至关重要。尽管序列注释仍是主流方法(如Pfam),但AlphaFold2等AI技术的突破使结构预测精度达到实验水平(CASP15中全局距离测试参数>80)。然而,蛋白质在自然状态下存在构象集合,受序列变异、翻译后修饰、配体结合等因素影响,导致预测结构存在偏差。本研究结合AlphaFold2和Pfam,探索结构变异对功能预测的影响。
2 Methods
2.1 数据生成
从EBI下载16种模式生物的AlphaFold2预测结构,剔除208个多重预测蛋白。使用InterProScan(v100)预测Pfam结构域,通过PDB-tools提取结构域区域,STRIDE(v0.9.9)预测二级结构(α-螺旋、β-折叠、混合型或卷曲)。
2.2 结构聚类与合并
采用FoldSeek(v10.941cd33)初步聚类,随后通过凝聚聚类(TM-score>0.6阈值)合并相似簇,选择pLDDT评分最高的代表结构。
2.3 系统发育树构建
使用FAMSA对齐序列,ClipKIT修剪后,通过ninja包构建邻接树,FigTree可视化。
3 Results and Discussion
3.1 Pfam家族的结构变异性证据
分析显示,α-螺旋和β-折叠结构域的pLDDT评分较高,而卷曲结构呈双峰分布(图1B)。约20%-40%的Pfam家族成员缺乏规则二级结构(图1C),暗示序列保守性≠结构保守性。
3.2 凝聚聚类优化结构分类
FoldSeek初始聚类产生2497个多簇家族,经凝聚聚类合并后降至567个(图2C)。簇内TM-score中位数从0.53降至0.43(图2B),有效捕获结构差异。
3.3 低置信度预测与结构离群值
单例簇(如PF01230的A0A0N7KQE7)pLDDT中位数仅48.2,显著低于非单例簇(74.8)(图3B)。HIT基序案例中,单例簇缺乏保守序列模体且TM-score仅0.32(图3D-F),提示假阳性预测风险。
3.4 结节蛋白PF02451的结构多样性
该家族中,单例簇(如P04144)呈现非典型卷曲或短螺旋(图4C),与典型X型螺旋 motif(A0A0R0GXC2)形成对比(图4B),凸显需多结构比较的必要性。
3.5 结构聚类指导Pfam家族优化
IPP转移酶PF01715家族中,33个蛋白的HMM边界分化为2-72和169-232两个区域(图5C),支持结构域拆分。eRF1家族(PF03463)通过聚类和系统发育分析(图5D-F),成功拆分为终止因子eRF1和mRNA监视蛋白Pelota_N(PF26356)。
3.6 角蛋白相关蛋白的特殊折叠
PF13885家族中,仅6/120个蛋白含β-折叠结构(图6B-C)。序列重复(如Q9BYR4的10aa重复)可能诱导AlphaFold2预测非天然β-折叠(图S4C),而AlphaFold3能部分纠正此偏差。
4 Conclusions
本研究通过整合AlphaFold2与Pfam,揭示了结构域预测中的系统性偏差。结构聚类不仅能识别假阳性、优化家族注释(如PF03463拆分),还凸显了多结构比较对功能预测的重要性。未来需开发更精准的预测流程,以捕捉蛋白质的动态结构空间。
(注:全文严格基于原文数据,案例引用均来自文中图表,未添加主观推断)
生物通微信公众号
知名企业招聘