编辑推荐:
为解决蛋白质靶向生物分子凝聚物定位机制不明的问题,研究人员开展了 “ProtGPS:基于机器学习预测蛋白质在细胞生物分子凝聚物中定位” 的研究。结果显示,ProtGPS 能准确预测蛋白质定位(AUC–ROC 值 0.83 - 0.95),还可预测疾病相关突变影响。这为研究凝聚物相关疾病提供重要工具127。
细胞是生命的基本单元,里面的蛋白质就像忙碌的小工匠,它们必须准确地找到自己的 “工作岗位”,也就是和伙伴们聚集到特定的位置,才能有条不紊地维持细胞的正常运转。但细胞内部环境极其复杂,蛋白质是如何在这 “迷宫” 中精准定位的呢?特别是在非膜结合的生物分子凝聚物(biomolecular condensates,包括非膜结合细胞器等)里,蛋白质的定位机制一直是个未解之谜。此前,虽然发现了一些能让蛋白质定位到特定膜结合细胞器的肽靶向序列,但对于蛋白质如何靶向生物分子凝聚物却知之甚少。而且,与疾病相关的突变发生在内在无序区域(intrinsically disordered regions,IDRs)时,是如何影响细胞功能的也不清楚。为了揭开这些谜团,来自加拿大多伦多病童医院(Hospital for Sick Children)和多伦多大学(University of Toronto)的研究人员展开了深入研究,相关成果发表在《Cell Research》杂志上
134。
研究人员运用了机器学习(Machine Learning)技术和蛋白质语言模型(Protein Language Model)开展研究。他们收集了约 5500 个标注了定位信息的蛋白质序列,涵盖核斑点(nuclear speckles)、PML 体(PML bodies)等十二种不同的凝聚物,以此训练出 ProtGPS 模型。
下面来看具体的研究结果:
- ProtGPS 模型预测蛋白质定位:研究人员构建的 ProtGPS 模型,可以根据蛋白质序列预测其在十二种细胞凝聚物中的定位情况。实验数据显示,该模型预测的 AUC–ROC 值在 0.83 到 0.95 之间,这表明它能够较为准确地完成预测任务2。
- 设计算法生成靶向凝聚物的新蛋白:研究人员基于 ProtGPS 开发了设计算法,生成了一些 “新” 蛋白质。以预测靶向核仁(nucleolus)的序列为例,共生成十条 100 个氨基酸长度的序列,其中四条在与核仁标记物 NPM1 共表达时,在核仁中高度富集;而对于预测靶向核斑点的十条序列,虽然没有观察到明显富集,但出现了含有设计蛋白和错误定位的核斑点标记蛋白的细胞质凝聚物,说明模型学习到了斑点蛋白的特征5。
- 预测疾病相关突变对蛋白质定位的影响:研究人员利用 ProtGPS 预测疾病相关的错义或截断变体对蛋白质定位的影响。他们找出了十个错义变体和十个截断变体,通过在细胞中表达荧光标记的变体,证实了与野生型蛋白相比,这些变体在凝聚物定位上发生了显著变化,体现了 ProtGPS 预测突变对靶向凝聚物影响的能力68。
研究结论表明,ProtGPS 为预测蛋白质在复杂细胞环境中的定位提供了重要工具,有助于深入理解功能性细胞组织。而且,它还能预测疾病相关突变对蛋白质定位的影响,这对研究与凝聚物相关的疾病,如神经退行性疾病和癌症等意义重大。不过,目前的研究也存在一些局限性,比如成功预测凝聚物定位仍受诸多因素限制,包括对功能性蛋白质凝聚物的了解不足、翻译后修饰、细胞条件以及其他蛋白质和核酸结合伙伴的表达水平等。未来,需要进一步发展 ProtGPS,深入研究凝聚物定位蛋白的突变如何改变其他蛋白在凝聚物中的共定位情况,这将为揭示疾病机制、开发新的治疗策略提供更多可能。