基于ProstT5和结构字母的增强型CATH超家族检测工具CATHe2

《Biology Methods and Protocols》:CATHe2: Enhanced CATH Superfamily Detection Using ProstT5 and Structural Alphabets

【字体: 时间:2025年11月05日 来源:Biology Methods and Protocols 2.5

编辑推荐:

  本研究针对AlphaFold等计算结构模型爆发式增长背景下CATH数据库超家族手工注释不可行的问题,开发了基于ProstT5和3Di结构字母的蛋白质超家族自动分类器CATHe2。通过融合氨基酸序列嵌入和三维结构信息,该模型在严格同源性阈值(20%序列一致性)下将超家族分类F1分数提升至82.3%,较前代CATHe提升9.9%。该研究为大规模蛋白质功能注释提供了更精准高效的解决方案,代码已开源。

  
随着AlphaFold2在2020年实现蛋白质结构预测的突破,生物学界迎来了计算结构模型(CSM)的爆炸式增长。AlphaFold数据库(AFDB)已包含超过2亿个预测结构,这种数据洪流使得传统手工注释蛋白质进化关系的CATH数据库面临巨大挑战。CATH作为重要的蛋白质结构分类系统,通过超家族(SF)分类揭示蛋白质的进化与结构关系,但面对海量数据,人工分类已不可行。
此前CATH团队开发了自动分类器CATHe,采用前馈神经网络(FNN)结合蛋白质语言模型(pLM)ProtT5的嵌入向量,在序列一致性低于20%的远程同源检测任务中达到72.4%的F1分数。然而,新出现的结构感知型pLM和更高效的表示方法为性能提升提供了可能。
在这项发表于《Biology Methods and Protocols》的研究中,Orfeu Mouret和Jad Abbass团队提出了CATHe2系统,通过三大创新实现性能飞跃:首先用新型双语模型ProstT5替代ProtT5;其次引入Foldseek开发的3Di结构字母表示三维结构信息;最后优化了神经网络分类器架构。
关键技术方法包括:基于CATH v4.3数据集构建训练集(1,039,135个结构域)和测试集(6,863个结构域),使用严格过滤(序列一致性<20%);通过ProstT5生成氨基酸序列和3Di序列嵌入;采用网格搜索优化FNN分类器超参数(层数、丢弃率等);利用pLDDT置信度阈值和支持度阈值进行数据质量控制。
CATHe2模型性能
最佳模型采用ProstT5全精度嵌入,结合氨基酸和3Di序列信息,在大型数据集上达到92.2%准确率和82.3% F1分数,显著超越前代CATHe(85.6%准确率,72.4% F1分数)。对比实验表明,仅使用氨基酸序列的简化版CATHe2也能将F1分数提高6.7%,证明新架构的有效性。
Embedding input for CATHe2F1 score
ProstT5 full82.3±1.3%
ProstT5 half81.9±1.3%
ESM2 15B80.6±1.3%
附加实验结果
结构信息贡献分析显示,单独使用3Di嵌入效果较差,但与氨基酸嵌入结合能带来额外增益。pLDDT过滤实验发现,中等阈值(24)能平衡数据质量与数量,而过高阈值会因训练样本减少而降低性能。
支持度阈值实验表明,过滤低支持度超家族(域数量<10)虽能提高指标(F1分数达88.0%),但因损失172个超家族而未被最终模型采用,凸显了数据覆盖度对实用性的重要性。
讨论与展望
研究团队客观分析了CATHe2的局限性:由于3Di序列依赖结构数据,训练集比CATHe减少13%(137,698个域),且缺少"其他"超家族类别,限制了对新超家族的识别能力。然而,控制实验表明这些因素对性能影响有限(约1.5%)。
未来改进方向包括:采用轻量注意力机制替代平均池化;使用ProstT5配套CNN从序列推断3Di结构;探索多pLM嵌入融合策略;测试蛋白质块(PB)等替代结构表示方法。团队特别推荐尝试SaProt和ProSST等新兴结构感知pLM,这些模型可能更好地融合结构与序列信息。
CATHe2的意义在于为后AlphaFold时代的蛋白质功能注释提供了可扩展的解决方案。其开源特性(代码发布于GitHub)将促进社区进一步发展,为理解蛋白质进化景观和功能推断提供强大工具。随着计算生物学进入"蛋白质语言模型时代",CATHe2展示了如何通过智能整合序列与结构信息,在保持速度的同时提升远程同源检测的灵敏度。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号