综述:基因表达与蛋白质丰度:这些分子特征之间的关联程度如何?

【字体: 时间:2025年10月02日 来源:Biotechnology Advances 12.5

编辑推荐:

  本综述系统回顾了基因表达(mRNA水平)与蛋白质丰度之间关联的研究进展,重点探讨了在不同实验设置和细胞背景下两者相关性差异的原因。文章涵盖了转录组学(RNA-seq)和蛋白质组学(MS、SILAC、TMT等)技术进展,分析了翻译效率、蛋白质降解、密码子使用偏好(CUB)及转录后调控(如uORFs、RNA结合蛋白)等多种因素的影响,并引入了单细胞多组学(scRNA-seq、CITE-seq)和空间转录组学等最新技术视角。作者强调,尽管mRNA水平是蛋白质丰度的主要预测因子(R2可达0.85),但翻译调控(如核糖体分析Ribo-seq)和降解机制仍贡献显著变异,尤其在动态过程或应激响应中。最后,综述展望了整合机器学习(如LLM)、蛋白质限制性代谢模型在合成生物学和生物技术中的应用前景。

  
基因表达与蛋白质丰度的关联机制与研究进展
转录组与蛋白质组分析技术
转录组学技术如微阵列、RNA-seq及其衍生技术(如scRNA-seq、空间转录组学)实现了大规模基因表达检测,而蛋白质组学技术包括ELISA、Western blot、质谱方法(如SILAC、TMT、iTRAQ)和单细胞蛋白质组学(如CITE-seq、SWATH-MS)。这些技术各有优劣:转录组学成本低、覆盖广,但无法直接捕捉蛋白质功能;蛋白质组学提供功能洞察但价格昂贵且覆盖受限。数据标准化方法(如RPKM、FPKM、DESeq2)和外部RNA spike-in有助于减少技术变异。
影响mRNA与蛋白质关联的因素
mRNA与蛋白质丰度的相关性受多种因素调控。在真核生物中,mRNA半衰期短(哺乳动物平均2.6–9小时),蛋白质半衰期长(约46小时),且转录与翻译在时空上解耦,导致相关性降低(ρ ≈ 0.4–0.6)。原核生物中两者耦合更紧,相关性较高。其他因素包括:翻译效率(如核糖体密度)、密码子使用偏好(CUB)、上游开放阅读框(uORFs)、5′ UTR二级结构、蛋白质降解率、细胞周期变异、转录爆发和亚细胞定位。进化上,蛋白质丰度比mRNA更保守,表明功能约束更强。
相关性研究的分类与发现
研究按上下文分为基因间、组织特异性、单细胞水平、时间动态和条件依赖性分析。基因间分析显示,在酵母和哺乳动物中,mRNA可解释蛋白质变异的40–85%(R2),但单细胞水平相关性低(r ≈ 0.01–0.4)。组织特异性研究中,蛋白质-mRNA比率(PTR)在基因间保守但组织间可变,挑战了早期认为PTR恒定的观点。时间序列数据揭示应激响应(如氧化应激、热激)中mRNA与蛋白质变化存在滞后,翻译调控缓冲转录波动。空间分析(如大鼠脑部)显示神经元极性导致mRNA-蛋白质解离。
蛋白质丰度预测的建模方法
预测模型分机制模型和统计模型两类。机制模型(如两阶段或三阶段随机模型)用动力学参数(转录率k1、翻译率k2、降解率g1/g2)描述mRNA-蛋白质关系,并扩展至包括启动子切换、细胞周期和基因剂量效应。这些模型显示蛋白质分布近似Gamma或负二项分布,爆发频率和大小是关键参数。延迟翻译和成熟过程进一步降低相关性。统计模型整合序列特征:多元自适应回归样条(MARS)或偏最小二乘回归(PLS)纳入mRNA水平、翻译效率(如核糖体分析Ribo-seq)、密码子使用偏好(tAI指数)、UTR结构、蛋白质降解信号等,可将预测精度提高至R2 ≈ 0.7。研究表明,mRNA水平贡献约50–70%变异,翻译效率贡献10–20%,降解贡献≤10%。
未来展望
未来研究需整合更多因素:基因功能类别(如看家基因 vs. 应激响应基因)、翻译资源竞争(如核糖体分配)、细胞特异性变异和空间上下文。机器学习(如大型语言模型LLM)和深度学习能利用序列特征(如Kozak序列、Shine-Dalgarno序列、密码子使用)提升预测。合成生物学中,蛋白质限制性代谢模型和基因电路设计需精确调控蛋白质丰度以优化生物生产。单细胞多组学和空间技术将揭示异质性和动态调控,推动基础生物学和生物技术应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号