AllergenAI:基于深度学习的蛋白质序列过敏原性预测模型及其在新型过敏原发现中的应用
《BMC Bioinformatics》:AllergenAI: a deep learning model predicting allergenicity based on protein sequence
【字体:
大
中
小
】
时间:2025年11月19日
来源:BMC Bioinformatics 3.3
编辑推荐:
本研究针对现有过敏原预测方法依赖序列同源性和理化特征、难以识别新型过敏原的瓶颈,开发了基于卷积神经网络(CNN)的深度学习模型AllergenAI。该模型仅利用蛋白质序列信息,在包含约2万条序列的数据集上实现高达94%的预测准确率,成功鉴定出杯状蛋白家族中4种新型潜在过敏原,并发现脯氨酸-丙氨酸富集 motif 与IgE表位区域高度重叠。研究还首次证实三维结构信息的融入可进一步提升预测性能,为过敏原特征识别和食品安全评估提供了新范式。
当花生、坚果等常见食物引发的过敏反应从轻微皮疹发展到危及生命的过敏性休克时,准确识别致敏蛋白质已成为食品安全和临床诊断的迫切需求。传统过敏原预测方法主要依赖序列相似性比对和已知理化特征,但面对自然界中大量同源而非过敏的蛋白质家族时,这些方法往往力不从心。更棘手的是,某些致敏蛋白如虾类的原肌球蛋白,与人体内非过敏的同源蛋白具有高度序列相似性,使得单纯依靠序列identity的预测策略面临根本性挑战。
在这项发表于《BMC Bioinformatics》的研究中,Liu等人创新性地开发了AllergenAI深度学习模型,该模型仅凭蛋白质氨基酸序列就能高精度区分过敏原与非过敏原。研究团队整合了三大权威数据库(SDAP 2.0、COMPARE和AlgPred2)中约2万条蛋白质序列,构建了迄今最大的过敏原训练数据集。通过五折交叉验证,模型在测试集上达到0.94的准确率和0.97的AUROC(受试者工作特征曲线下面积),性能优于传统机器学习方法。
关键技术方法包括:1)基于90%序列相似性聚类的数据预处理策略,确保训练集独立性;2)构建包含卷积层、池化层和全连接层的CNN架构,将1000个氨基酸长度的序列转换为20维one-hot编码矩阵;3)开发特征重要性评分(FIS)算法,通过掩蔽5个氨基酸窗口评估区域贡献度;4)利用DSSP(二级结构分配数据库)提取α螺旋、β折叠等三维结构特征进行增强实验。
研究结果方面,首先通过性能验证表明AllergenAI在独立测试集上显著优于SVM(支持向量机)和LSTM(长短期记忆网络)模型。在COMPARE 2022数据库的2695个过敏原中,模型正确识别2399个(89%),较AllergenFP提升3个百分点。特别值得注意的是,在对杯状蛋白家族27,182条序列的大规模筛选中,模型发现4种新型潜在过敏原,其来源植物(海枣、菠菜、玉米等)在临床中已报道过敏病例,但致敏蛋白未被明确鉴定。
特征重要性分析揭示了过敏原的分子指纹。通过扫描vicilin(豌豆球蛋白)家族过敏原序列,发现50%高FIS区域存在显著的脯氨酸-丙氨酸(P-A)富集motif。该motif与已知IgE表位区域高度重叠,例如在鸡肉类过敏原Gal d 7和尘螨过敏原Der p 3中均发现类似结构。这一发现为解释交叉反应现象提供了分子基础——即使序列相似性低至30%,共享的P-A motif仍可能引发免疫识别。
三维结构增强实验显示,加入二级结构和溶剂可及性等特征后,模型测试准确率从0.81提升至0.83。虽然增幅有限,但证实结构信息对过敏原识别具有补充价值。研究人员计划后续为全部训练集生成AlphaFold2预测结构,进一步探索构象特征对过敏原性的影响。
该研究的突破性在于实现了从“特征工程”到“特征学习”的范式转变。传统方法依赖人工筛选的理化参数,而AllergenAI通过深度学习自主挖掘出P-A富集motif等关键特征。这不仅为食品过敏原风险评估提供了新工具,更为免疫识别机制研究提供了新视角。未来通过与实验验证结合,该模型有望在新型蛋白食品安全评估、过敏原表位图谱绘制及低敏性蛋白设计等领域发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号