基于基因扰动数据评估体外细胞模型向体内人类表型可迁移性的新框架GPAT
《Nature Communications》:Evaluating transportability of in vitro cellular models to in vivo human phenotypes using gene perturbation data
【字体:
大
中
小
】
时间:2025年12月14日
来源:Nature Communications 15.7
编辑推荐:
《自然·通讯》编辑推荐:为评估体外细胞模型在多大程度上能有效模拟人类复杂体内表型这一长期难题,研究人员开发了基因扰动可迁移性分析(GPAT)框架。该研究创新性地整合CRISPR筛选数据与人类基因功能缺失变异数据,证实溶酶体胆固醇积累模型与低密度脂蛋白胆固醇的因果关联,为体外模型验证提供了方法论突破。
在生物医学研究领域,科学家们常常使用体外细胞模型来模拟人体内的复杂生理和病理过程。这些在培养皿中进行的实验,比如利用CRISPR-Cas9基因编辑技术对细胞进行基因扰动后观察表型变化,为我们理解基因功能提供了强大工具。然而,一个根本性难题始终悬而未决:这些在严格控制实验室条件下获得的结果,究竟能在多大程度上反映真实人体内的生物学过程?如果某个基因在细胞实验中被证明会影响病毒应答,这是否意味着它也会影响人类感染疾病的发展?这个问题的答案直接关系到基础研究成果向临床应用的转化效率。
传统上,评估体外模型的相关性往往依赖于间接证据或零散的验证实验,缺乏系统性的评估框架。由于体内直接实验在人类中难以实施,研究人员急需一种能够客观量化体外模型预测价值的新方法。这正是发表于《自然·通讯》的这项研究要解决的核心问题。
为了回答这一挑战,由Laurence J. Howe领衔的研究团队开发了一种名为“基因扰动可迁移性分析”(GPAT)的创新框架。这一方法的巧妙之处在于,它将基因视为连接体外与体内世界的桥梁。研究人员的核心思路是:如果一个体外细胞模型能够真实反映体内生物学过程,那么那些在体外实验中影响细胞表型的基因扰动,也应该以机制一致的方向和效应大小影响相关的体内人类表型。
GPAT方法本质上是对孟德尔随机化(MR)的创造性拓展。不同于传统MR使用遗传变异作为工具变量,GPAT直接使用基因扰动作为工具变量。具体而言,研究人员从两方面获取数据:一方面来自体外基因扰动筛选实验(如CRISPR-Cas9筛选),提供基因扰动对细胞表型影响的估计值;另一方面来自人类群体遗传学研究,特别是基于全基因组测序的功能缺失变异(pLoF)负荷检验,提供基因功能丧失对人类表型影响的估计值。通过计算每个基因的Wald比率(体内效应与体外效应的比值)并进行meta分析,GPAT能够评估体外模型与体内表型之间的可迁移性。
在验证阶段,研究人员首先进行了阳性对照分析,利用已知的低密度脂蛋白胆固醇(LDL-C)与冠心病(CHD)的因果关系来检验GPAT的可靠性。结果显示,GPAT与标准MR分析得出了一致结论:LDL-C每升高1个标准差,冠心病风险增加43%(OR=1.43,P=2.1×10-16),尽管GPAT的标准误约为MR的3.9倍,统计效能相对较低,但仍足以检测常见表型间的关联。
为确保pLoF变异能有效代表基因功能降低,团队还分析了pLoF负荷对相应血浆蛋白水平的影响。在2121个基因-蛋白质对中,59.0%的基因显示pLoF负荷会降低相应血浆蛋白水平(中位数降低1.3个标准差),仅1.9%的基因显示相反效应,表明pLoF负荷检验确实能有效代理基因功能降低。
在假设驱动分析中,研究团队评估了四种体外细胞模型的可迁移性。最具说服力的发现来自溶酶体胆固醇积累模型:较高的体外溶酶体胆固醇积累与较低的人类血浆LDL-C水平显著相关(β=-0.006,P=0.0006),与溶酶体在脂质生物合成中的已知作用一致。即使排除效应显著的LDLR基因后,结果仍然稳健。相比之下,软骨细胞增殖与成人身高、脂肪细胞分化与肥胖相关表型、胰岛素含量与Ⅱ型糖尿病相关表型之间,均未发现强有力的可迁移性证据。
特别有趣的是软骨细胞增殖的例子:虽然基因集富集分析显示软骨细胞增殖相关基因在身高pLoF证据中有弱富集(16.5% vs 10.3%,P=0.049),但GPAT分析却得出了无效结果(β=0.007 cm,P=0.42)。深入分析发现,影响软骨细胞增殖的基因中,约一半暗示增殖与身高正相关,另一半则暗示负相关,导致meta分析总体估计为零。这表明观察到的富集更可能反映了基因水平多效性——相同基因通过不同机制同时影响软骨细胞增殖和身高,而非真正的可迁移性。
在假设自由分析中,研究人员利用来自BioGRID ORCS数据库的116个体外细胞模型和英国生物银行(UK Biobank)的69个体内表型进行了大规模分析。31对表型通过了严格的多重检验校正,其中84%涉及癌细胞系增殖模型。尤为突出的是,红细胞白血病细胞系增殖与体内白细胞表型显示强相关性:较高增殖与较低淋巴细胞百分比和计数、较高中性粒细胞百分比和计数相关。此外,胆囊癌细胞系增殖与较低血浆甘油三酯的相关性(P=5.0×10-14)也与胆囊在胆汁储存中的生理作用一致。
GPAT框架的应用也面临若干方法论挑战。与所有工具变量方法一样,GPAT依赖于三个核心假设:相关性(基因扰动与体外表型强相关)、独立性(基因扰动与体内表型无共同原因)和排他性限制(基因扰动仅通过代理表型影响结局)。此外,GPAT还有一个特定假设:体外基因扰动和体内pLoF变异对基因功能的影响经过适当标化后具有一致性。模拟分析表明,当存在方向不一致或表型水平多效性时,GPAT估计可能产生偏倚。
研究人员强调,GPAT估计捕捉的是广泛生物学背景下的净效应,而非特定细胞环境下的效应。体外实验通常在狭窄的生物学背景下进行(特定细胞类型、状态和条件),而种系遗传关联捕获的是所有细胞类型和生命历程的效应。因此,GPAT结果应被视为证据三角框架中的一环,与其他体外方法和基因组学方法结合使用。
这项研究的深远意义在于,它首次提供了系统评估体外模型可迁移性的通用框架。正如阴性结果与随机对照试验一致的高影响力MR研究一样,GPAT的无效发现同样具有重要价值——能够帮助优先选择更有预测价值的实验模型,优化研发资源分配。
随着功能基因组学数据和测序数据的爆炸式增长,GPAT的应用前景十分广阔。未来工作可探索跨物种可迁移性、改进扰动效应标化方法,并将GPAT扩展到更广泛的实验模型和人类表型。这项研究标志着我们在理解体外与体内生物学联系方面迈出了重要一步,为更有效地将基础研究发现转化为临床应用奠定了方法论基础。
主要技术方法包括:基于CRISPR-Cas9的基因组尺度扰动筛选技术、英国生物银行(UK Biobank)约50万参与者全基因组测序数据的pLoF负荷检验、孟德尔随机化(MR)框架的基因水平应用(逆方差加权meta分析、MR-Egger回归等敏感性分析)、以及基因集富集分析。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号