
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DeepCodon:基于深度学习的密码子优化模型在提升蛋白质表达中的应用与机制研究
【字体: 大 中 小 】 时间:2025年08月13日 来源:BioDesign Research 4.7
编辑推荐:
针对传统密码子优化方法易忽略功能关键稀有密码子簇的问题,天津科技大学团队开发了基于Transformer架构的DeepCodon模型。该模型通过150万条肠杆菌序列预训练和高表达基因微调,结合条件概率策略保留保守稀有密码子,实验验证显示其对9种P450和G3PDH酶的优化效果优于传统方法,为合成生物学提供了新工具。
在合成生物学和基因工程领域,异源蛋白质表达效率低下一直是制约研究的瓶颈问题。传统密码子优化策略如CAI(密码子适应指数)和tAI(tRNA适应指数)虽能提升宿主适应性,但往往粗暴替换低频密码子,导致关键蛋白质折叠位点的保守稀有密码子簇丢失,引发蛋白质错误折叠或功能丧失。更棘手的是,现有深度学习模型如RNN和CNN受限于数据量和长程依赖捕捉能力,而通用型Transformer模型又缺乏宿主特异性优化。
针对这一系列挑战,天津科技大学的研究团队在《BioDesign Research》发表了创新性研究。他们开发了名为DeepCodon的深度学习工具,首次将Transformer架构专用于大肠杆菌表达系统,并通过条件概率策略突破性地解决了功能稀有密码子保留难题。该研究通过构建150万条肠杆菌非冗余编码序列(CDS)数据集和67,860条高表达序列子集,采用预训练-微调范式训练蛋白质-CDS翻译模型。结合AlphaFold2大规模结构预测和保守稀有密码子簇(RareCodon)分析,开发出RareFinder模块指导条件生成。实验验证显示,DeepCodon在9种低表达P450和G3PDH酶中优化效果显著,且稀有密码子保留率达90%,远超商业工具。
关键技术方法包括:1)基于MMseqs2聚类构建肠杆菌特异性CDS数据集;2)采用Transformer架构进行蛋白质-CDS翻译建模;3)整合CAI/tAI/GC含量筛选高表达特征;4)通过AlphaFold2预测2百万蛋白质结构分析稀有密码子分布;5)开发RareFinder实现条件概率引导的密码子优化。
研究结果部分:
蛋白质-CDS翻译模型训练
通过肠杆菌序列数据集预训练和高度表达序列微调,构建的DeepCodon-FT模型在CAI(0.78)和tAI(0.35)指标上取得平衡,避免因过度优化导致的折叠错误。
模型性能评估
对比测试显示,DeepCodon-FT优化序列的相似性(P<1e-10)和GC含量(30-70%)更优,在5个关键稀有密码子测试中保留率达80%,显著高于ICOR等工具。
稀有密码子簇分析
基于98,980物种构建的RareCodon数据集揭示,保守稀有密码子簇倾向分布于基因首尾区域(占比15%),且在蛋白质连接区有轻微富集。
实验验证
Jess?系统定量显示,DeepCodon优化的7种P450酶中4种表达量提升2-5倍,13种AI设计的G3PDH酶中5种显著优于商业优化(P<0.05)。
结论部分指出,DeepCodon首次实现宿主特异性优化与功能密码子保留的双重突破。其创新性体现在:1)专一性训练策略使大肠杆菌优化效果优于通用模型;2)条件概率机制解决稀有密码子"全保留或全替换"的二元困境;3)为难以表达的膜蛋白等复杂体系提供新思路。研究团队已部署在线平台(deepcodon.biodesign.ac.cn),未来计划拓展至枯草芽孢杆菌等工业宿主,推动合成生物学工具的精准化发展。
生物通微信公众号
知名企业招聘