通过将去噪扩散模型应用于mRNA展示库来设计新型功能性肽的途径
《ChemBioChem》:A Route to Design Novel Functional Peptides by Applying a Denoising Diffusional Model to mRNA Display Libraries
【字体:
大
中
小
】
时间:2025年10月28日
来源:ChemBioChem 2.8
编辑推荐:
利用去噪扩散隐式模型(DDIM)基于mRNA显示选择数据生成新型Bcl-xL肽配体,实验验证其功能等效性及动力学特性,扩展序列搜索空间并突破传统定向进化的遗传密码限制。
在当今生物医学研究中,寻找与特定靶标具有高亲和力的肽配体是开发新型药物和治疗策略的重要环节。传统的体外定向进化技术,如噬菌体展示、核糖体展示、酵母展示和mRNA展示,已被广泛应用于这一领域。这些方法通过筛选大量的随机序列,以识别能够与目标蛋白结合的配体。然而,尽管这些技术能够生成大规模的序列库,其实际应用仍受到遗传密码固有偏差和实验条件限制的影响。例如,mRNA展示技术虽然可以构建包含高达101?个独特序列的库,但在蛋白质长度超过约10个氨基酸时,仍然无法充分探索整个序列空间。这是因为随着蛋白质链长度的增加,可能的序列组合数量呈指数级增长,而实验筛选的效率和成本则显著上升,导致许多潜在的功能性序列未能被发现。
为了解决这一问题,研究人员引入了深度学习(Deep Learning, DL)技术,特别是基于去噪扩散隐式模型(Denoising Diffusion Implicit Models, DDIMs)的生成模型。这些模型通过学习已有数据的分布模式,能够在不依赖传统实验筛选的情况下,生成具有高亲和力的新型肽配体。DDIMs的核心思想是通过逐步添加噪声的过程(前向过程)将数据转化为随机噪声,然后通过逆向过程逐步去除噪声,以生成新的数据点。这种方法不仅能够有效探索未被传统方法覆盖的序列区域,还能在较低的计算成本下生成高质量的序列。
本研究聚焦于使用DDIMs生成针对B细胞淋巴瘤额外大(Bcl-xL)的新型肽配体。Bcl-xL是一种在多种癌症中高度表达的蛋白,是许多抗癌药物的重要靶标。研究团队利用之前通过mRNA展示技术获得的高通量测序数据,构建了一个包含21个氨基酸长肽配体及其结合亲和力(KD值)的高质量数据集。这些数据不仅涵盖了序列信息,还包含了结合亲和力的详细数据,为训练深度学习模型提供了坚实的基础。
为了使数据适合DDIMs的训练,研究人员将每个肽序列转换为一个20×20的二进制矩阵,采用了一种称为“one-hot编码”的方法。这种编码方式将每个氨基酸位置映射到对应的列,每个位置的氨基酸种类则通过二进制值表示。通过这种方式,肽序列被转化为图像形式,从而可以被DDIMs模型处理。此外,研究人员还验证了这些序列是否符合同一概率分布,这是DDIMs模型有效训练的关键前提之一。
在模型训练过程中,数据被随机分为训练集和测试集,比例为70:30。模型使用均方误差(Mean Square Error, MSE)作为损失函数,以衡量其生成序列与原始数据之间的差异。经过5000次迭代训练后,训练集和测试集的损失值均达到最小,表明模型已充分学习了数据的分布特性。最终,研究人员选取了表现最佳的训练周期用于序列生成,确保生成的序列具有高度的多样性。
生成的序列数量达到10,000个,其中12个被选中进行实验验证。这些序列被随机选择,以覆盖从1到10个汉明距离(Hamming distance)的范围,其中汉明距离是指生成序列与其最近邻原始序列之间的差异。实验结果显示,11个生成序列具有功能,其中FG1的结合亲和力最高,而75%(9/12)的测试序列表现出比原始E1序列更高的亲和力。值得注意的是,FG5是唯一一个非功能的序列,其汉明距离为10,这表明它可能已经偏离了功能序列空间。尽管如此,其他生成序列仍然保持了与原始序列相近的结合动力学特性,特别是它们的结合速率(on-rate)与E1相似,而解离速率(off-rate)则略有变化。
研究人员进一步分析了生成序列与其最近邻原始序列(NON)之间的结合特性。结果显示,生成序列的解离速率与NON的解离速率非常接近,表明这些序列在功能上与原始序列具有高度相似性。然而,汉明距离的范围表明,DDIMs能够生成与原始序列有较大差异的序列,而这些序列仍然保持了良好的功能。这为传统筛选方法所难以实现的高多样性序列生成提供了新的可能性。
此外,研究还探讨了DDIMs生成序列在结合亲和力以外的其他性质上的表现。例如,结合亲和力是衡量肽配体与靶标结合能力的重要指标,但其他特性如水溶性、蛋白酶抗性、结合特异性以及药代动力学性质同样需要被考虑。在设计用于治疗应用的配体时,常常需要在这些特性之间进行权衡。为了测试DDIMs是否能够同时优化多个特性,研究人员分析了生成序列的疏水性,通过计算“grand average of hydropathy (fGRAVY)”得分来评估其水溶性。结果显示,生成的序列在疏水性得分上呈现出从-0.7(亲水)到+0.5(疏水)的线性分布,表明DDIMs能够生成具有广泛化学多样性的肽配体,从而为后续的筛选和优化提供了更多的候选序列。
值得注意的是,DDIMs生成的序列并不受遗传密码的限制,这使得它们能够探索传统定向进化技术难以触及的序列区域。遗传密码的固有偏差会导致某些氨基酸组合在实验中出现频率较低,而DDIMs则能够生成这些罕见的序列。例如,研究团队发现,DDIMs生成的序列在原始筛选库中出现的概率平均降低了约100倍,且有37%的序列属于低概率区域。这意味着,DDIMs能够有效扩展功能序列空间,为研究人员提供更多的探索可能性。
为了进一步验证DDIMs的性能,研究团队还比较了由DDIMs生成的序列与原始筛选库中序列的分布情况。结果表明,DDIMs生成的序列在汉明距离上呈现出更大的差异,这意味着它们在序列空间中的分布更加广泛。这一特性使得DDIMs能够生成与原始序列差异较大的序列,从而提高了发现新功能配体的可能性。
本研究的结果表明,DDIMs不仅能够生成具有高亲和力的新型肽配体,还能在结合动力学、化学多样性和其他重要特性上提供良好的表现。通过结合实验和计算方法,DDIMs为体外定向进化技术提供了一种新的补充手段,能够高效探索未被传统方法覆盖的序列区域。这种方法的应用不仅限于Bcl-xL靶标,还可以推广到其他蛋白质靶标,为新型药物的开发和优化提供了更广阔的空间。
总的来说,DDIMs作为一种基于深度学习的生成模型,具有显著的优势。它能够克服传统定向进化技术在序列空间探索上的局限性,生成更多样化的肽配体。这些序列不仅在结合亲和力上表现出色,还在其他关键特性上展现出广泛的变化范围。这种能力使得DDIMs成为一种强有力的工具,能够加速配体发现的过程,并优化分子的多种属性。随着深度学习技术的不断发展,其在生物医学领域的应用前景将更加广阔,为药物研发和治疗策略的创新提供新的思路和方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号