
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于超10万组实验数据的卷积-注意力混合神经网络CANYA解析蛋白质聚集规律
【字体: 大 中 小 】 时间:2025年05月01日 来源:SCIENCE ADVANCES 11.7
编辑推荐:
针对蛋白质聚集预测模型训练数据不足的瓶颈,研究团队通过大规模平行实验量化>10万种随机肽段聚集特性,开发出卷积-注意力混合神经网络CANYA。该模型在独立测试集上AUROC达0.809,显著优于现有工具,并通过可解释AI技术揭示其决策机制,为淀粉样蛋白疾病机制研究和生物制剂开发提供新工具。
蛋白质聚集是50多种人类疾病的病理标志,也是生物技术领域的主要挑战。尽管冷冻电镜等技术已解析成熟淀粉样纤维的原子结构,但淀粉样蛋白形成的起始机制仍不清楚。现有预测方法多基于小型且有偏数据集训练,对复杂序列空间的预测能力有限。更关键的是,20个氨基酸组成的肽段就有超过1026种可能序列,传统方法难以全面覆盖这一巨大的序列空间。
为突破数据瓶颈,研究人员开发了大规模平行筛选实验,精确量化了超过10万种随机20肽的聚集特性。通过酵母Sup35N融合系统,利用腺嘌呤缺陷型培养基筛选,成功将聚集行为转化为可量化的生长优势信号。实验数据揭示现有预测工具如CamSol和TANGO在广谱序列空间中的AUROC仅0.598-0.680,凸显数据局限性。
基于此,团队构建了卷积-注意力混合神经网络CANYA。该模型创新性地结合了3-mer长度卷积层(对应淀粉样纤维β链平均长度)和单头注意力机制,仅用17,491参数即实现高效预测。在7,040个独立测试序列中,CANYA的AUROC达0.809,显著优于次优方法Aggrescan(0.707)。模型在CPAD和AmyPro等外部数据集验证中保持稳定性能,证实其泛化能力。
关键技术包括:1)NNK密码子随机文库构建与酵母转化;2)基于Sup35N的腺嘌呤营养缺陷型高通量筛选;3)DiMSum流程处理深度测序数据;4)卷积-注意力混合神经网络架构设计;5)全局重要性分析(GIA)等可解释AI技术。
研究结果揭示:
"Massively parallel quantification of >100,000 sequences"显示实验成功捕获21,936个聚集体和88,470个非聚集体,数据覆盖人类蛋白质组疏水性和β折叠倾向的完整谱系。
"Aggregating sequences span large sequence space"发现聚集序列富含半胱氨酸(频率差+0.012)和天冬酰胺(+0.009),而精氨酸(-0.010)和赖氨酸(-0.006)显著减少,但整体差异微妙。
"CANYA accurately predicts amyloid aggregation"证实该模型在NNK1-3测试集中平均AUROC达0.710,且训练时间<1小时,显著优于线性模型。
"Evaluation on >7,000 additional sequences"验证模型在独立文库中保持0.809 AUROC,对已知淀粉样蛋白区域识别准确率(AUROC 0.782)超越所有现有工具。
"Physicochemical motif activation"通过GIA分析揭示11类理化基序,其中疏水基序(簇3)在β链中富集(AUROC 0.669),而带负电荷基序(簇7)倾向无序区(AUROC 0.645)。
"Motif position dependence"显示基序效应具有位置特异性,N端效应比C端强45-80%,与酵母朊病毒特性相符。
"Motif interactions"表明基序效应主要呈加和性(R2=0.99),但疏水-芳香基序组合可产生协同效应(交互重要性0.067)。
结论指出,CANYA通过大规模实验数据突破了传统方法的局限性,其卷积层有效捕捉β链形成的关键3-mer特征,注意力机制则建模了位置依赖性相互作用。研究不仅提供了目前最大的蛋白质聚集定量数据集,更开创性地将基因组神经网络解释技术应用于蛋白质领域。该成果对神经退行性疾病机制解析、生物制剂稳定性优化具有双重价值,同时证实随机序列空间大规模分析在蛋白质功能解码中的独特优势。论文发表于《SCIENCE ADVANCES》,为蛋白质聚集研究树立了新范式。
生物通微信公众号
知名企业招聘