
-
生物通官微
陪你抓住生命科技
跳动的脉搏
FusionEncoder:基于多特征融合的蛋白质内在无序区域智能识别新方法
【字体: 大 中 小 】 时间:2025年06月20日 来源:Bioinformatics 4.4
编辑推荐:
本研究针对蛋白质内在无序区域(IDRs)预测中传统生物特征与预训练蛋白质语言模型(PPLMs)特征简单拼接导致的语义交互缺失问题,开发了基于LSTM变体的多语义融合网络FusionEncoder。该方法创新性地将传统特征输入细胞状态、PPLMs特征输入门控单元,通过融合单元实现跨语义空间交互,在DISORDER723等四个独立测试集上显著提升预测精度(AUC达0.932),为解析蛋白质结构与功能关系提供了新工具。
在生命活动的分子舞台上,蛋白质内在无序区域(IDRs)就像不按常理出牌的"自由舞者"——它们缺乏稳定的三维结构,却在细胞信号传导、DNA调控等关键生物学过程中扮演着不可或缺的角色。更令人警惕的是,这些看似无序的区域与阿尔茨海默病、癌症等多种重大疾病密切相关。虽然X射线晶体学等实验技术能鉴定IDRs,但其耗时费力的特性难以满足高通量研究需求。现有计算方法要么依赖传统生物特征(如PSSM、AAindex),要么直接使用预训练蛋白质语言模型(PPLMs)特征,却忽视了两种特征空间的多层次语义交互,成为提升预测精度的关键瓶颈。
北京理工大学联合深圳北理莫斯科大学的研究团队在《Bioinformatics》发表的研究中,提出了名为FusionEncoder的创新解决方案。该研究通过构建多语义融合网络,首次实现了传统生物特征与PPLMs特征的深度交互,在四个独立测试集上展现出稳定优越的性能,AUC最高达0.951。
研究团队采用三项关键技术路线:首先整合PSSM进化特征、AAindex理化性质和能量接触势等传统特征,结合Prot-T5-XL等四种PPLMs提取的语义特征;其次设计基于LSTM变体的融合单元,将传统特征输入细胞状态、PPLMs特征调控门控机制;最后通过Transformer编码层捕捉序列上下文依赖。模型在包含4,845条蛋白质的基准数据集(4,229条无序蛋白+616条有序蛋白)上进行5折验证,并在DISORDER723等四个独立测试集评估。
3.1 多数据集验证稳定性
在DISORDER723测试集上,FusionEncoder的BACC(0.825)和AUC(0.932)均领先第二名1.5%和1.8%;在MXD494数据集上MCC值达0.492,较IDP-Seq2seq提升1.7%。特别值得注意的是,在CAID3竞赛的Disorder-NOX和Disorder-PDB测试集上,AUC分别达到0.863和0.951,与冠军方法差距仅0.5%,展现出极强的泛化能力。
3.2 特征融合机制优势
与直接拼接特征的DeepDRP相比,在相同截断测试集上FusionEncoder的AUC提升1%(0.9334 vs 0.9234)。移除融合单元后(FEw/oFusioncell),性能立即下降0.5%,证实了跨语义交互的重要性。t-SNE可视化显示,融合单元能使传统特征(蓝色星形)与PPLMs特征(黄色三角)在表示空间中的分布更紧凑,印证了其语义整合效果。

3.3 特征贡献度解析
通过消融实验发现,ESM2语义特征的移除导致AUC最大降幅达3.3%(0.922→0.889),而传统特征中能量接触势的缺失对BACC影响最显著。这表明虽然PPLMs特征对预测精度贡献更大,但传统特征在特定指标上具有不可替代性,印证了多特征融合的必要性。
这项研究开创性地提出了蛋白质序列特征提取的"多语义空间"理论框架,通过生物物理特性与深度学习语义的深度融合,将IDRs预测精度推向新高度。部署在http://blulab.net/FusionEncoder/的在线服务器,为实验科学家提供了便捷的研究工具。该成果不仅为理解蛋白质"无序之美"的生物学意义提供了新视角,更为药物靶点发现和疾病机制研究开辟了新途径。正如审稿人所言:"这项工作重新定义了计算生物学中特征工程的范式,其融合策略对其它序列分析任务具有重要启示意义。"
生物通微信公众号
知名企业招聘