编辑推荐:
融合癌蛋白驱动儿科癌症,但由于其内在的紊乱和缺乏药物袋而具有挑战性。在这里,作者介绍了FusOn-pLM,在FusOn-DB上训练,它使用动态掩蔽在融合特异性任务中优于基线,并预测耐药突变,推进治疗设计。
融合癌蛋白特异性语言模型 FusOn-pLM:精准洞察融合癌蛋白的新利器
近期,杜克大学(Duke University)的研究人员在《自然通讯》(Nature Communications )杂志上发表了题为 “FusOn-pLM: a fusion oncoprotein-specific language model via adjusted rate masking” 的论文。该研究成果在癌症治疗领域意义重大,为攻克融合癌蛋白相关的癌症难题提供了新的方向和有力工具。
融合癌蛋白是由染色体易位产生的一类嵌合蛋白,在多种儿童癌症的发生发展中扮演着关键角色。这类蛋白具有高度的结构无序性,缺乏可用于药物结合的口袋,使得传统的基于小分子和结构的治疗方法难以对其进行有效靶向,这一直是癌症治疗领域面临的重大挑战。蛋白质语言模型(pLMs)作为新兴的强大工具,虽能从蛋白质序列中捕捉物理化学和功能特征,但此前尚未针对融合癌蛋白序列进行训练。本研究开发的 FusOn-pLM 模型,正是为了填补这一空白,为融合癌蛋白相关的治疗研究提供更具针对性的支持。
一、研究背景
融合癌蛋白起源于染色体的重排,它将两个不同基因的片段融合在一起,产生的突变体包含由长无序区域连接的不相关功能域。这种独特的结构促使融合蛋白持续激活或异常调节,进而驱动致癌转化和肿瘤发展。目前,通过对患者肿瘤的测序,已发现数千种独特的融合癌蛋白,像尤文肉瘤中的 EWSR1::FLI1、肺泡横纹肌肉瘤中的 PAX3::FOXO1 等常见融合癌蛋白,虽已在文献中有大量研究,但因其结构不稳定和缺乏明确的结合口袋,成为难以捉摸的药物靶点。
近年来,基于结构的预测和设计模型,如 AlphaFold 和 RFDiffusion,虽在设计针对致病蛋白的生物制剂方面发挥了一定作用,但由于融合癌蛋白的构象不稳定,这些工具难以准确捕捉其结构,限制了在融合癌蛋白靶向治疗中的应用。蛋白质语言模型,如 ESM2 和 ProtT5,虽在数百万蛋白质序列上进行了训练,能从序列中提取多种蛋白质特征,甚至可用于设计新蛋白质和结合物,但未针对融合癌蛋白序列进行训练,无法有效处理融合癌蛋白独特的结构和功能特征。因此,开发一种专门针对融合癌蛋白的模型迫在眉睫。
二、研究材料和方法
(一)模型训练集的构建
研究人员从 FusionPDB 和 FOdb 数据库中收集数据,构建了 FusOn-DB 数据集,包含 44,414 条融合癌蛋白序列,代表 16,364 种独特的头::尾融合。去除重复序列和长度超过 2000 个氨基酸的序列后,剩余 42,141 条序列用于后续研究。利用 MMSeqs2 对序列进行聚类,以创建具有低序列同源性的训练 - 验证 - 测试集,其中测试集包含 250 条序列。
(二)序列同源性分析和断点映射
使用本地 blastp(v2.16.0)估计 FusOn-DB 与 SwissProt 之间的序列同源性,将 FOdb 和 FusionPDB 中的头和尾基因名称映射到 UniProt ID。对于每个融合癌蛋白,提取三个比对结果,并计算最大百分比同一性。同时,利用 BLAST 比对确定断点,标注断点区域。
(三)基准测试数据集的构建
为评估 FusOn-pLM,构建了用于三项基准测试任务的数据集:斑点形成和定位、IDR 整体维度和内在无序预测。斑点形成和定位数据来自 FOdb,包含 178 种融合癌蛋白的实验验证结果;IDR 整体维度数据来自已发表的数据集,包含合成和天然蛋白质的 IDR 序列;无序预测训练数据来自 IDP-CRF 和 flDPnn,测试数据集为 CAID2 Disorder-NOX 数据集中的 210 条标准序列。
(四)模型架构和训练
FusOn-pLM 基于 ESM-2-650M 进行微调,选择性地微调模型的最后八层,通过余弦调度掩蔽策略动态改变掩蔽率,在训练过程中逐步增加重建任务的难度。模型在 NVIDIA H100 GPU 上训练 30 个 epoch,使用 Adam 优化器,学习率为 3e-4,批处理大小为 8。
三、研究结果
(一)融合癌蛋白构成独特多样的序列数据集
FusOn-DB 中的融合癌蛋白序列与 SwissProt 中的序列同源性分布广泛,平均同一性为 71.0%,超过 12,000 种融合癌蛋白的最大同一性小于 60%。融合癌蛋白具有高水平的结构无序性,平均无序残基比例达到 45.9%,高于其头蛋白和尾蛋白。通过对 AlphaFold2 预测的四种融合癌蛋白结构分析发现,其 pLDDT 得分较低,表明存在广泛的内在无序。这些结果突出了融合癌蛋白独特的序列和结构特征。
(二)余弦调度掩蔽实现准确的融合癌蛋白序列恢复
在对 FusOn-DB 中 15% 掩蔽的测试集评估中,采用余弦调度掩蔽策略微调的 FusOn-pLM 模型在序列重建任务上表现出色,优于固定掩蔽率策略和未微调的 ESM-2-650M 基线模型。该模型在损失和伪困惑度指标上取得了优异成绩,如在 15%-40% 的掩蔽率范围内,损失为 1.28,伪困惑度为 3.61,证明了余弦调度掩蔽策略的有效性。
(三)FusOn-pLM 生成与融合癌蛋白相关的表征
在预测斑点形成和定位任务中,FusOn-pLM 嵌入在多个分类指标上优于 ESM-2-650M、ProtT5 和 FOdb 的物理化学嵌入。在预测细胞核定位时,FusOn-pLM 表现突出;在细胞质定位预测中,虽然手动策划的 FOdb 嵌入表现较强,但 FusOn-pLM 在关键指标(如 AUROC)上最为有效。这表明 FusOn-pLM 能够学习到融合癌蛋白序列中编码的关键属性。
(四)FusOn-pLM 能准确预测野生型和融合癌蛋白中的无序内容
FusOn-pLM-IDR 模型在预测非融合 IDR 序列的四项属性(非球形度、端到端半径、回转半径和聚合物缩放指数)时,具有较高的决定系数(
),与 ESM-2-650M 嵌入性能相近,说明 FusOn-pLM 没有过拟合。FusOn-pLM-Diso 模型在预测蛋白质序列中的 IDR 区域时,在 CAID2 竞赛中排名前 5,在融合癌蛋白测试集中,各项评估指标均高于 0.9,且与 AlphaFold-pLDDT 预测的无序百分比相关性强(
),表明其能准确编码融合癌蛋白的无序相关信息。
(五)FusOn-pLM 嵌入实现相关突变的零样本发现
FusOn-pLM 通过其 MLM 头能够识别融合癌蛋白中进化保守的功能域。在 TRIM24::RET、EWSR1::FLI1 和 PAX3::FOXO1 等融合癌蛋白中,模型准确识别出各蛋白的保守区域。在预测耐药突变方面,FusOn-pLM 在 EML4::ALK、BCR::ABL 和 ETV6::NTRK3 等融合癌蛋白中,成功预测出多个已知的耐药突变,显示出其在预测耐药突变方面的潜力。
四、研究结论与讨论
本研究成功开发了 FusOn-pLM,这是一种基于 ESM-2 的蛋白质语言模型,经过微调可生成融合癌蛋白特异性嵌入。同时,研究人员创建了包含超过 44,000 条注释融合癌蛋白序列的 FusOn-DB 数据集。通过余弦调度 MLM 训练策略,FusOn-pLM 在融合癌蛋白相关任务上表现出色,优于原始的 ESM-2-650M 模型、ProtT5 模型以及基线 FOdb 描述符嵌入。在 IDR 检测和预测方面,FusOn-pLM 也展现出强大的能力,在 CAID2 基准测试中排名靠前,能够有效预测融合癌蛋白的无序属性。该模型还能够预测融合癌蛋白中的耐药突变,为治疗策略的制定和耐药机制的预测提供了重要依据。
FusOn-pLM 也存在一些局限性。FusOn-DB 数据集虽然规模较大,但可能无法涵盖所有融合变体,尤其是罕见或研究较少的融合类型。由于 GPU 内存限制,训练过程中排除了长度超过 2000 个氨基酸的蛋白质,这可能会遗漏某些具有特殊结构的融合癌蛋白。FusOn-pLM 在预测驱动突变以及将序列嵌入与增强子或转录因子等调控元件联系起来的能力尚未得到充分探索。未来需要通过实验验证 FusOn-pLM 的预测结果,以确认其在实际应用中的有效性。
尽管存在这些限制,FusOn-pLM 的开发仍是癌症研究领域的重要进展。研究团队计划在后续研究中,将 FusOn-pLM 嵌入应用于设计肽 - E3 泛素连接酶融合物,以实现对融合癌蛋白的降解。同时,结合 PTM-Mamba pLM 重新训练 FusOn-pLM,考虑翻译后修饰对融合癌蛋白致癌活性的影响,实现更精准的治疗设计。借助基因递送技术的发展,有望开发出安全有效的融合特异性生物制剂,为融合阳性癌症患者带来新的希望。FusOn-pLM 为融合癌蛋白的研究和治疗开辟了新的道路,具有重要的理论和实践意义,将推动癌症治疗领域不断向前发展。
闁瑰灚鎹佺粊锟�
濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙
10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�
婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷
闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�
濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷