综述:未知功能蛋白质的发现与功能注释的综合方法
《TRENDS IN Biochemical Sciences》:Integrated approaches for discovery and functional annotation of proteins of unknown function
【字体:
大
中
小
】
时间:2025年11月30日
来源:TRENDS IN Biochemical Sciences 11
编辑推荐:
本综述系统探讨了整合高通量实验平台与计算模型(如AlphaFold2、Evo等)来阐明未知功能蛋白质(PUFs)的策略。文章强调,在癌症和传染病等高负担疾病背景下,PUFs是潜在的关键机制与治疗靶点。作者呼吁通过数据驱动发现和社区努力,构建可重复、可扩展的注释流程,以揭示“暗蛋白质组”的生物学功能。
未知功能蛋白质(PUFs)是分子生物学中一个持续存在的盲点。尽管基因组测序已广泛开展,但原核和真核蛋白质组中仍有很大一部分特征不明。即使在深入研究的大肠杆菌K-12中,约35%的基因在其基因组首次测序二十多年后仍完全或部分未被表征。PUFs通常被定义为缺乏明确功能注释的蛋白质,涵盖三类重叠的范畴:从基因组数据中预测但无实验证据表达的理论蛋白质(HPs);已知序列和结构但未确定分子活性的蛋白质;以及已确立初级生化功能但缺乏调控、互作伙伴或疾病相关性等背景信息的蛋白质。系统性表征PUFs的进展缓慢,受限于实验难度、对先验模型的依赖、数据异质性以及资助机构对已知靶点的偏好,这导致研究焦点过度集中在蛋白质组中一小部分熟悉的蛋白质上,在生物医学研究中尤为突出。
功能注释通常始于最简化的层面:在孤立状态下表征单个蛋白质。这涉及利用实验方法(如表1所列)分析其溶解性、结构稳定性、酶活性和亚细胞定位等内在生化特性。然而,许多PUFs因难以用标准化方案表达、纯化或检测而未被表征。
从实验角度看,PUF检测可视为一个优化和搜索问题。监督机器学习(ML)非常适合此挑战,它利用已知蛋白质的标记数据学习模式并推广至未知案例。新兴的深度学习(DL)模型,作为ML的子集,通过学习与成功蛋白质表达相关的模式(如密码子使用、启动子强度、表达标签特性)为构建体优化提供了有前景的架构。例如,基于神经网络的密码子优化工具ICOR,通过训练可预测与宿主特异性翻译偏好相符的最佳密码子排列。应用于PUFs时,此类模型可指导构建体设计,并优先选择最有可能被实验检测到的PUFs。
ML还能增强用于分析蛋白质特性的实验方法。例如,用于研究亚细胞定位的荧光生物传感器,以及用于动力学和热力学分析的生物物理技术(如表面等离子体共振、拉曼光谱),可通过优化生物传感器组件(如纳米颗粒表面化学、荧光团组成)而受益于ML引导的设计,从而提高检测低丰度或瞬时表达PUFs的能力。然而,当前模型大多在概念验证研究中针对已知蛋白质进行评估,其在许多PUFs存在的动态、异质性环境中的性能仍有待确定。
一旦蛋白质变得易于实验操作,下一个挑战是推断其结构和主要功能。在投入大量且昂贵的湿实验之前,这些信息通常先在计算机中获取。AlphaFold2(AF2)的成功标志着这一努力的转折点,它能够直接从序列进行精确的结构预测,并催生了能够预测结构 motifs、结构域架构和亚细胞定位的新一代DL模型。同样,最新的InterPro 105.0版本引入了基于DL的结构预测工具InterPro-N,为UniProtKB增加了18.7亿个新注释,使超过90%的UniProtKB序列至少有一个注释。全计算流程现已常规注释来自伤寒沙门氏菌、脆弱拟杆菌和猪肺炎支原体等细菌的HPs,其中一些被发现是肺炎克雷伯菌、无害梭菌、恶性疟原虫和尿路致病性大肠杆菌等病原体的潜在药物靶点。
尽管有这些进展,大多数模型仍严重依赖蛋白质数据库(PDB)的训练数据,该数据库主要包含折叠良好、静态的蛋白质表征。因此,与疾病相关PUFs常见的特征,如内在无序区域和柔性结构域,在模型中代表性不足。实践中,通常只有具备足够结构或同源性支持的HPs会被优先进行全面的计算机注释,导致蛋白质组中很大一部分功能未标记并被排除在实验跟进之外。
混合策略可通过用结构数据补充计算模型来弥补这些差距。例如,交联质谱(XL-MS)提供了氨基酸水平的空间约束,改善了AF2对柔性结构域和跨膜蛋白的预测。类似地,氢氘交换质谱(HDX-MS)已与AF3整合,以解析变构调控蛋白(如与癌症相关的血红素调控抑制因子激酶)的构象动力学。相关的DL框架Al-HDX,通过训练可捕获动态结构特征。有趣的是,HDX-MS在研究内在无序区域方面取得了显著成功,而这正是AF2明显表现不佳的领域。因此,整合此类实验数据有望改善对这些具有挑战性但与疾病相关区域的计算机注释。
然而,大多数结构预测框架(包括AF2和AF3)依赖多序列比对(MSA)来推断残基-残基约束,这限制了它们对缺乏同源物的PUFs的适用性。这在癌症和传染病背景下很常见,因为存在快速进化、水平基因转移和从头基因诞生。基础模型可能通过从海量数据集中学习通用序列表征来克服这一限制,使它们能够对先前未见序列的生物学特性进行零样本预测。一个显著的例子是Evo及其后继者Evo 2,它们对数十亿的DNA、RNA和蛋白质序列进行建模,以学习跨生命所有领域的多模态进化约束。这些工具可以自主预测结构元件、转录因子(TF)结合位点、突变效应和变异致病性等生物学特征,即使对于保守性差或谱系特异性基因也是如此。作为概念验证,Evo 2以高准确度分类了乳腺癌中意义未明的BRCA1变异,凸显了其在临床相关背景下解释功能作用的潜力。因此,对于给定的“PUF X”,此类工具可能直接从广泛的序列模式推断其结构和功能属性,而无需基于同源性的输入。
最终,正如ML可以提高实验工具的分辨率一样,实验和序列数据可以拓宽预测模型的准确性和范围。然而,这种整合并非易事,需要大量、精心整理的数据集和专家解读才能对模型训练做出有意义的贡献。
虽然单个蛋白质的检测和表征是必要的第一步,但许多蛋白质功能是“涌现”的,其更高级的角色在简化的体外或计算机环境中缺失,却在疾病背景下至关重要。因此,初级分析可能揭示了内在活性,但忽略了对于理解蛋白质完整功能同等重要的次要作用。我们必须超越这种孤立的、相对简单的表征,考虑PUFs运作的系统层次。
为了开始将PUFs置于更广泛的层次中,首先检查单个蛋白质如何与其直接伙伴相互作用是有用的。成对蛋白质-蛋白质相互作用(PPIs)可以通过酵母双杂交、光亲和标记或邻近连接分析等既定技术进行实验探测(表1及其参考文献)。同时,分子对接、共进化分析和蛋白质-配体结合位点预测等计算工具有助于在计算机中识别可能的相互作用界面(表2及其参考文献)。整合的实验-计算流程共同帮助定义了简单的PPIs和潜在的相互作用网络。然而,这些方法需要预先有待测试的候选物,使得发现没有已知注释伙伴的PUFs的相互作用变得困难。
为克服此限制,面向发现的高通量策略,如热蛋白质组分析(TPP)、汇集式遗传扰动筛选(如CRISPR干扰(CRISPRi))和单细胞组学正日益受到重视。这些技术生成丰富的高维数据集,可被整合以全面研究成对及更广泛的网络水平功能。例如,一项研究将TPP与CRISPRi结合,绘制了大肠杆菌的功能蛋白质组图谱,揭示了超过10,000个潜在的新蛋白质相互作用,包括涉及253个PUFs的3655个PPIs。类似地,将CRISPR遗传筛选与单细胞RNA-seq结合的Perturb-seq已被用于多种背景,如在脑肿瘤微环境中识别致癌驱动因子,以及揭示SARS-CoV-2和巨细胞病毒感染中的宿主因子。这些方法能够系统绘制潜在的相互作用图谱,为在缺乏已知伙伴的情况下功能性地定位PUFs提供了框架。
最近的DL框架通过从单细胞扰动数据集中学习基因-基因相互作用的功能逻辑及其表型效应,进一步扩展了这种能力。诸如图增强基因激活和抑制模拟器(GEARS)和scGPT等工具可预测细胞对单个或组合基因扰动的反应。scGPT是一个在超过3300万个单细胞谱上训练的基础模型,无需任务特定数据即可推断调控相互作用,类似于Evo模型用于基于序列的预测。尽管这些模型在基因水平操作,但其预测结果可以合理地映射回蛋白质功能,特别是当扰动效应与特定通路或细胞状态相关时。这些框架共同提供了一种可扩展的方法,可在不依赖伙伴先验知识、结构模板或序列同源性的情况下,将PUFs功能性地定位在网络中,尽管它们主要捕获高层关联而非精确的机制细节。
超越扰动反应的预测模型,调控网络推断通过估计基因间的统计或因果依赖关系,从实验数据形式化地重建分子相互作用。这使得能够绘制有方向且可解释的网络关系,对于理解作为转录、翻译或信号调制器的PUFs尤其有用。
基因调控网络(GRN)推断通常结合单细胞或批量转录组数据与先验知识,重建调控因子与靶标的定向网络。例如,CellOracle和SCENIC+等工具通过将TFs与下游基因连接并进行计算机扰动模拟,从单细胞数据推断GRNs。这些方法的扩展也已显示出潜力,例如一项研究将激酶MAP4K4(与癌症进展和细胞凋亡相关)识别为中性粒细胞分化的先前未被认识的调控因子,展示了PUFs如何被整合到更广泛的网络和细胞程序中。
因果推断框架通过识别方向性、机制性的关系而非简单的共表达,补充了GRN重建。诸如CausalCell等方法将因果发现应用于单细胞数据,以重建特定背景下的信号和调控网络。这些方法提供了可解释的、整合性的方式来将PUFs置于功能网络中,并预测扰动在通路中的传播。然而,跨细胞类型、实验室和扰动方法的输入数据集的异质性对这些模型的基准测试和验证构成了重大挑战。尽管新兴努力旨在构建标准化的扰动图谱和建立基准测试框架,但结果好坏参半。纳入时间或多条件数据可能进一步增强机制分辨率,尽管建模大型复杂网络的计算成本仍是关键障碍。随着这些资源的扩展和方法的成熟,因果网络模型很可能成为解析先前未表征蛋白质细胞作用的核心工具。
到目前为止的讨论大多采用了相对静态的蛋白质功能观。然而,许多蛋白质在瞬时组装体中运作,这些组装体响应细胞信号快速形成和解离。它们在大小、组成、定位和调控上差异很大,并在哺乳动物、植物和细菌系统中支撑关键生物过程(图2)。一个特别神秘的亚类是代谢物(metabolon),定义为临时的超分子酶复合物,促进连续代谢反应中高效的底物通道。这些瞬时组装体与PUF研究高度相关:一些蛋白质未被注释正是因为它们的主要作用存在于这些难以捉摸的复合物中,而另一些则可能通过参与代谢物而具有额外的、尚未被发现的功能。
因此,要对瞬时组装体进行功能注释,需考虑两个互补的方面:(i) 其动态结构组织;和 (ii) 其对代谢通量的影响。通过表征驱动核心碳和核苷酸代谢的先前难以捉摸的代谢物技术已阐明了这一点。此类通路在癌症中经常被重编程或被病原体劫持,因此理解代谢物如何影响这些动态有助于将PUFs置于生物学相关的疾病背景中。
与单个蛋白质分析一样,整合结构方法正日益应用于代谢物,现在采用能够高分辨率表征瞬时、柔性复合物的实验技术,如冷冻电子显微镜(cryo-EM)。例如,一项研究采用单颗粒冷冻电镜数据的非对称重建、AF2衍生模型和对接算法,解析了活跃的酮戊二酸脱氢酶复合物(OGDHc),这是一个在三羧酸(TCA)循环中涉及癌瘤氧化还原调控和能量代谢的关键代谢物。类似的原位分析阐明了丙酮酸脱氢酶复合物(PDHc)的组织结构,这是一个10-MDa的、核心碳代谢中心的代谢物。尽管此类组装体的结构表征曾因结构域灵活性和瞬时性而受阻,改进的图像处理和对接现在使这项努力日益可行。这些方法为将PUFs映射到它们可能参与的更高级、瞬时复合物提供了第一步。
为了理解可变的功能角色,研究人员将定量蛋白质组学、代谢组学和成像与经典数学模型和动力学模拟相结合。虽然实验工具提供了空间和定量见解,但计算机方法有助于估算控制通路通量的关键参数,如化学计量和反应常数。例如,Pareek等人的一项里程碑式研究解析了嘌呤体,一种增强哺乳动物从头嘌呤生物合成的代谢物。通过3D单细胞质谱成像、同位素富集测定和对同位素异构体分布的化学计量建模,他们展示了九个先前已注释的酶如何协同组装以增加这一关键生物合成途径的通量。
分子动力学模拟可以进一步探究跨时间尺度的代谢物行为。例如,结合分光光度测定法的REST2模拟揭示了翻译后修饰如何调控糖酵解代谢物的结构动力学。类似地,朗之万动力学模拟、XL-MS和动态光散射阐明了酶在线粒体辅酶Q代谢物内的聚集如何在核心碳代谢期间将电子流导向呼吸链。
总之,这些整合方法允许推断PUFs的背景依赖性功能。然而,此类策略在技术上要求高且资源密集,并且需要大量关于代谢途径的先验知识。许多提出的代谢物尚未得到验证,关于其内源性存在的问题仍然存在。关键的是,我们仍然缺乏系统性的方法来识别一个未注释的蛋白质(即使没有任何已知酶活性的蛋白质)是否是此类复合物的一部分。
回答这个问题需要视角的转变。在本综述讨论的分子尺度中,大多数整合方法从根本上仍然是假设驱动的。这些研究通常提出有针对性的问题,例如某个特定蛋白质是否执行特定功能。虽然这产生了深刻的机制见解,但对于存在于生物学不确定性领域、具有随机行为、动态调控和有限直接可测性的PUFs来说,往往是不够的。
在这种情况下,一种互补的范式变得有价值:数据驱动的发现。这些方法不是从预定义的假设开始,而是从大型、高分辨率数据集中挖掘意外的相关性、空间模式或涌现特征,从而为新的功能假设提供信息。随着高分辨率、大规模生物数据的可用性日益增加,此类方法对于像PUFs这样的未充分研究现象不仅是可行的,而且是必要的。这在单细胞和空间组学平台中尤为明显,单个实验可以生成跨越组织结构、细胞邻域和亚细胞定位的太字节数据。人类细胞图谱(HCA)、人类生物分子图谱计划(HuBMAP)、人类肿瘤图谱网络(HTAN)和4D核组(4D Nucleome)等大规模计划正在生成丰富的多组学数据集和注释参考框架。
METASPACE等平台及其补充工具METASPACE-ML支持从此类数据进行高通量空间代谢组注释。同样,最近的单细胞空间分辨代谢(scSpaMet)框架将非靶向空间代谢组学与多重蛋白质成像相结合,实现单细胞中的联合蛋白质-代谢物分析。应用于免疫细胞和癌细胞时,scSpaMet揭示了细胞类型特异性和空间分辨的代谢-蛋白质关联。此类空间代谢组学工具可以合理地应用于识别其主要功能可能存在于代谢物中或其代谢物相关作用仍未明确的PUFs。
PUFs的发现和功能注释依赖于两大支柱:(i) 通过先进实验平台生成生物学上丰富、高质量的数据;(ii) 开发强大、可扩展的分析框架,能够从这些数据中揭示模式、相关性和因果关系。至关重要的是,这些工具的最大威力在于它们跨分子尺度、细胞背景和生物学模式的整合。
也就是说,任何给定PUF的搜索空间都是巨大的,对所有蛋白质进行详尽的功能注释既不实际也不可扩展。努力最好优先放在具有直接生物学和临床相关性的背景下,例如癌症和传染病,那里PUFs丰富且影响重大。大规模数据集允许采用分步、多层次的方法:从PUF检测和初级表征开始,接着进行结构和功能分析、PPIs图谱绘制和网络整合,最后评估瞬时或背景依赖性功能。
我们预期,这样一个整合框架将为理解基本疾病机制和药物发现开辟一条新路径,这条路径始于对先前被忽视的蛋白质、相互作用和表型的系统水平探索。
最终,攻克“暗蛋白质组”将取决于实验和计算工具的协调使用。鉴于DL、ML和基于网络的框架的复杂性,促进跨学科合作至关重要,同时需要开发可纳入可扩展流程的易于使用和解释的工具。通过此类协同努力,我们可以系统地发现、优先排序和表征具有先前未知功能的蛋白质。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号