编辑推荐:
为解决 LLPS 预测难题,相关研究人员开展 catGRANULE 2.0 ROBOT 算法研究。结果显示该算法能精准预测 LLPS,评估突变影响。这为研究 LLPS 机制、疾病突变提供助力,强烈推荐科研读者阅读!
在细胞这个微观世界里,有一些神奇的 “小团体”—— 无膜细胞器,它们在细胞的生命活动中发挥着重要作用。而这些无膜细胞器的形成,离不开一种叫做液 - 液相分离(Liquid - Liquid Phase Separation,LLPS)的分子现象。LLPS 就像是细胞里的 “组织者”,它能把分子聚集在一起,形成无膜的凝聚物。近年来,科学家们发现 LLPS 在人类健康和疾病方面有着关键作用,尤其是在蛋白质凝聚和神经退行性疾病方面。比如说,在一些神经退行性疾病中,蛋白质的异常 LLPS 就像捣乱分子,破坏了细胞的正常秩序。
核酸在 LLPS 中也扮演着重要角色。许多蛋白质在 RNA 的帮助下才能进行相分离,当然,也有一些蛋白质凭借自身的无序结构域就能完成这一过程。LLPS 和液体到固体的相转变(Liquid to Solid Phase Transition,LSPT)可不一样,LSPT 中蛋白质会走向不可逆的聚集状态,就像面团揉在一起分不开了;而 LLPS 是可逆的,这一特性让它在细胞中有着独特的功能。它既能通过增加蛋白质浓度来增强酶的活性,又能通过在某些细胞器中积累 RNA 来抑制蛋白质翻译。这些通过相分离形成的凝聚物就像一个个忙碌的 “小工厂”,在细胞内特定的位置集中并分隔特定的蛋白质和生物分子,催化重要的生化过程。
尽管科学家们在 LLPS 的实验研究和相关数据库构建方面取得了一些进展,比如构建了大规模的 LLPS 相关蛋白质数据库,但目前仍然缺少对不同物种蛋白质组在 LLPS 特性方面的全面覆盖。为了弥补这些不足,不少计算方法应运而生,试图预测蛋白质发生 LLPS 的倾向。然而,这些方法大多存在一些缺陷,比如大多数方法无法在氨基酸水平上预测 LLPS 倾向,而且没有一种方法能广泛测试蛋白质序列的单突变和多突变对其 LLPS 能力的影响。之前的 LLPS 预测方法,像 catGRANULE 1.0、MaGS、PICNIC、PICNICGO 和 PSPHunter 等,虽然各有特点,但都不能很好地满足研究需求。
在这样的背景下,为了更深入地了解 LLPS,精准预测蛋白质的 LLPS 倾向以及突变对其的影响,来自相关研究机构的研究人员在《Genome Biology》期刊上发表了题为 “catGRANULE 2.0 ROBOT: predicting liquid - liquid phase separation at single - amino - acid resolution” 的论文。他们开发了一种先进的 LLPS 蛋白质预测工具 ——catGRANULE 2.0 ROBOT,为该领域的研究带来了新的突破。这个工具就像一个 “超级侦探”,能够在单氨基酸分辨率下预测 LLPS,还能可靠地评估突变对 LLPS 倾向的影响,为深入研究 LLPS 机制和突变影响提供了有价值的见解。这一成果不仅有助于我们更好地理解细胞内的微观世界,还为相关疾病的研究和治疗提供了新的思路和方法,具有重要的科学意义和潜在的应用价值。
研究人员为了开发出这个强大的预测工具,用到了几个关键的技术方法。他们首先从多个公开数据库收集数据,构建了包含已知参与 LLPS 的蛋白质的训练数据集和不参与 LLPS 的蛋白质的负数据集。接着,他们对每个蛋白质进行特征提取,包括 80 个基于蛋白质序列分析的物理化学特征、2 个现象学序列模式以及 28 个从 AlphaFold 结构数据库中提取的结构特征等,总共 128 个特征。之后,利用这些特征训练多个二元分类器,通过 ElasticNet 进行特征选择,最终选出表现最优的多层感知器(MLP)模型来预测蛋白质的 LLPS 倾向。
下面来看看具体的研究结果:
- 训练数据集的构建和生物学特征分析:研究人员像 “寻宝” 一样,从多个数据库收集人类 LLPS 相关蛋白质,总共得到 5656 个 LLPS 倾向蛋白质。为了构建负数据集,他们从人类蛋白质组中剔除这些蛋白质及其一级相互作用蛋白,再用 CD - HIT 筛选,保证序列相似性低于 50%,最后得到了训练数据集和测试数据集。通过比较 LLPS 蛋白质和负数据集蛋白质的长度、丰度分布,以及进行基因本体(Gene Ontology,GO)术语富集分析,他们发现 LLPS 蛋白质在 RNA 相关活动、翻译、蛋白质结合和代谢过程等方面显著富集,而负数据集蛋白质在转运蛋白和跨膜受体蛋白方面富集。这就好比不同的 “小团体” 有着不同的 “专长领域”。此外,他们还发现蛋白质的长度、核酸结合倾向、无序性等特征与 LLPS 倾向相关,这些特征就像一把把 “钥匙”,打开了 LLPS 倾向预测的大门。
- catGRANULE 2.0 ROBOT 准确分类 LLPS 倾向蛋白质:研究人员运用 ElasticNet 挑选出与 LLPS 分类最相关的 28 个特征,训练了 10 种不同的二元分类器,并通过 5 折交叉验证避免过拟合。最终,他们选择了 MLP 作为最优模型。与其他方法对比,catGRANULE 2.0 ROBOT 在预测 LLPS 倾向蛋白质方面表现更出色,无论是在测试数据集上,还是在预测其他物种的蛋白质时,都展现出了强大的能力。就像一个优秀的运动员,在各种比赛中都能脱颖而出。
- LLPS 的物理化学决定因素:研究人员计算了每个选定特征与预测 LLPS 分数的斯皮尔曼相关系数,发现疏水性特征与 LLPS 倾向分数呈负相关,而核酸结合倾向、无序性和蛋白质长度等特征则呈正相关。他们还发现,半径回转半径与蛋白质长度的标准化值(RG_protein_norm)与 LLPS 分数呈负相关,可及表面积的标准差(asa_std)呈正相关,这表明更紧凑的蛋白质不太容易发生 LLPS。通过计算特征的排列重要性,他们发现平均 pLDDT(一种衡量蛋白质无序性的指标)是最相关的特征,进一步验证了蛋白质无序性对相分离的重要贡献。这些发现就像是找到了影响 LLPS 的 “幕后推手”。
- catGRANULE 2.0 ROBOT 的独立验证:研究人员利用来自人类蛋白质图谱的 10757 张免疫荧光(IF)共聚焦显微镜图像对 catGRANULE 2.0 ROBOT 进行额外验证。他们通过计算细胞中绿色荧光的变异系数、绿色荧光蛋白斑点的面积和数量等指标,发现根据 catGRANULE 2.0 ROBOT 预测的 LLPS 倾向分数对蛋白质进行排名后,高分数的蛋白质在 IF 图像中表现出更多、更大的液滴,这与他们的预期相符,进一步证明了该工具的可靠性。
- LLPS 预测与亚细胞区室化:研究人员研究了不同亚细胞位置的蛋白质的预测 LLPS 分数,发现核仁蛋白的 LLPS 倾向最高,而分泌蛋白、细胞外蛋白和膜蛋白则不太可能发生 LLPS。他们还对不同类型的液体样凝聚物中的蛋白质进行分析,发现不同凝聚物的 LLPS 分数分布不同,并且 catGRANULE 2.0 ROBOT 在区分不同类型的 LLPS 相关蛋白质方面表现良好。这就像是给细胞内不同 “区域” 的蛋白质进行了一次全面的 “体检”。
- LLPS 概况和突变分数:研究人员通过应用滑动窗口方法计算蛋白质的 LLPS 倾向概况,发现基于物理化学特征训练的随机森林分类器在预测实验注释的 LLPS 驱动区域方面表现最佳。他们还利用这个工具计算突变对 LLPS 倾向的影响,发现 catGRANULE 2.0 ROBOT 在预测突变影响方面优于其他方法,能够准确地预测突变是增加还是减少 LLPS 倾向。这对于研究蛋白质的功能和相关疾病的机制非常有帮助。
研究结论和讨论部分总结来说,研究人员开发的 catGRANULE 2.0 ROBOT 整合了结构和基于序列的特征,在预测 LLPS 倾向和突变影响方面表现出色。通过构建高质量的训练和测试数据集,研究人员验证了该工具的可靠性。然而,LLPS 是一个复杂的过程,未来还需要进一步完善其定义,纳入更多环境因素和分子相互作用的数据。同时,研究人员计划在未来的研究中升级使用 AlphaFold3,并整合其他算法,进一步提高预测的准确性和对复杂生物环境的模拟能力。
这项研究的意义重大,catGRANULE 2.0 ROBOT 为研究人员提供了一个强大的工具,帮助他们更好地理解 LLPS 的机制,研究疾病相关的突变,设计具有特定 LLPS 特性的蛋白质或肽。这不仅有助于推动基础科学的发展,还可能为治疗神经退行性疾病等相关疾病开辟新的途径,就像为细胞微观世界的研究点亮了一盏明灯,照亮了未来研究和治疗的方向。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》