
-
生物通官微
陪你抓住生命科技
跳动的脉搏
六种人类癌症中2.8 Mb拓扑相关结构域的顺式调控元件的全面解剖
【字体: 大 中 小 】 时间:2025年02月14日 来源:Nature Communications 14.7
编辑推荐:
近 99% 的人类基因组不编码蛋白质。与编码蛋白质的基因相比,人们对非编码区域,尤其是非编码顺式调控元件(CREs)对基因表达的调控了解较少。
摘要:顺式调控元件(CREs),如增强子和启动子,是基因表达的基本调控因子。在不同细胞类型中,MYC 基因座利用由多个 CREs 驱动的多样化调控结构。为了更好地理解 CREs 功能的差异,纽约基因组中心等单位的研究人员进行了混合 CRISPR 抑制(CRISPRi)筛选,以核苷酸分辨率全面探测 6 种人类癌细胞系中包含 MYC 的 2.8 Mb 拓扑相关结构域。研究人员绘制出 32 个 CREs,抑制这些元件会导致细胞生长发生变化,其中 8 个与先前鉴定的增强子重叠。靶向特定的 CREs 可使 MYC 表达降低多达 60%,细胞生长减少多达 50%。通过三维增强子接触图谱分析,研究人员发现这些 CREs 几乎总是与 MYC 接触,但沉默时,与 MYC 的总接触中只有不到 10% 会影响细胞生长,这突出了该研究方法在识别与表型相关的 CREs 方面的实用性。研究人员还检测到 MYC 的 CREs 中富含谱系特异性转录因子(TFs),并且对于其中一些 TFs,在肿瘤组织中发现 TF 与 MYC 表达之间存在强烈的、肿瘤特异性的相关性,而在正常组织中则未发现这种相关性。综上所述,这些 CREs 是经过系统鉴定的功能性调控区域,展示了人类基因组的同一区域如何产生复杂的、组织特异性的基因调控。
一、研究背景
近 99% 的人类基因组不编码蛋白质。与编码蛋白质的基因相比,人们对非编码区域,尤其是非编码顺式调控元件(CREs)对基因表达的调控了解较少。由于多种原因,对 CREs 进行表征和识别一直是一项挑战,包括分布在整个基因组中的 CREs 数量众多、CREs 活性的细胞类型特异性以及它们对基因表达的影响较小。大型研究联盟(如 DNA 元件百科全书(ENCODE)和癌症基因组图谱(TCGA))的大规模分析工作,已基于组蛋白修饰(如 H3K27ac)和染色质可及性(如 DNase 超敏感性或 ATAC - seq)等生化特征鉴定出数千个候选 CREs。然而,最近的研究发现,尽管这些生化特征通常与基因调控功能相关,但它们并不总是能预测功能影响。此外,一些启动子和增强子已被证明具有冗余性且协同发挥作用。进一步的复杂之处在于,一些研究功能性非编码元件的方法没有考虑 CREs 的天然环境(如大规模平行报告基因检测(MPRAs))。
近期原位大规模平行基因组扰动技术的进展,提高了研究人员寻找哪些 CREs 调节基因表达并在疾病中起作用的能力。特别是使用成簇规律间隔短回文重复序列(CRISPR)核酸酶的正向遗传混合筛选,已被许多研究小组用于在天然环境中识别 CREs。对 CREs 检测的改进甚至促成了首个获得美国食品药品监督管理局(FDA)批准的针对镰状细胞贫血的基因编辑疗法,该疗法通过破坏一个 CRE 发挥作用。然而,大多数使用 CRISPR 研究 CREs 的研究仅在单一细胞类型中进行,尚不清楚这些元件是特定于所研究的细胞类型,还是在多种细胞或组织中共享。ENCODE 联盟利用原代小鼠和人类细胞及组织表明,大多数 CREs 是组织或细胞特异性的:利用多种生化特征鉴定出的人类基因组中约 70 万个远端增强子,平均仅在单一组织或细胞类型中发现。一些 CREs 在多种细胞 / 组织类型中被鉴定出来,这表明存在可能在不同组织中通用的核心必需 CREs。这类似于通过全基因组 CRISPR 筛选鉴定出的核心必需基因,这些基因在源自不同人类组织的多种细胞系中都是必需的。
二、研究内容
MYC 基因座在不同组织中的调控多样性
纽约基因组中心等单位的研究人员首先试图描述癌细胞类型中关键癌基因周围顺式调控景观的多样性。为此,研究人员量化了特定的生化标志:来自 ENCODE 的增强子相关组蛋白修饰 H3K4me1 和 H3K27ac,以及癌症体细胞突变目录(COSMIC)数据库中每个癌基因侧翼的染色质可及性(DNA 酶 I 超敏感性,DHS)。研究人员分析了来自代表 10 种不同癌症类型的人类肿瘤来源细胞系的数据(补充数据 1):黑色素瘤(A375)、肺腺癌(A549)、肝癌(HepG2)、结直肠腺癌(HT29)、白血病(K562)、淋巴瘤(Karpas - 422)、乳腺腺癌(MDA - MB - 231)、胰腺癌(Panc1)、前列腺腺癌(PC - 3)和神经母细胞瘤(SK - N - SH)。对于 COSMIC 分类为癌基因的 386 个基因,研究人员检查了基因体近端 ±1 Mb 窗口内的 CREs,因为先前的研究表明,大多数 CREs 位于其靶基因的 500 kb 至 1 Mb 范围内。
为了评估调控多样性,研究人员将每个生化标志(H3K4me1、H3K27ac、DHS)的数据按不同的 bin 大小进行分组,然后对于每个 bin 大小,计算所有细胞系对之间的欧几里得距离。细胞系对之间的距离越大,表明调控多样性越大。在检查每个生化标志时,研究人员发现 MYC 始终在排名前 5 的癌基因之列(补充图 1a - d)。由于不同基因的顺序往往根据与 CRE 相关的生化标志和分组而变化,研究人员试图找到一种稳健的方法来整合这些不同分析中的调控多样性评分。通过稳健排名聚合(RRA)汇总排名后,研究人员发现 MYC 是调控多样性最大的癌基因(图 1d)。MYC 是一种控制基因表达和细胞增殖的转录因子,已被证明与多种癌症有关。通常在转录和蛋白质水平上受到严格调控,据估计,MYC 在 50 - 70% 的人类癌症中异常表达。
高通量 CRISPRi 筛选识别细胞特异性 CREs
MYC 癌基因位于一个 2.8 Mb 的拓扑相关结构域(TAD)内,该结构域仅包含少数其他基因。尽管 MYC TAD 被称为基因荒漠,但它确实含有丰富的非编码 RNA。为了分析来自不同组织的细胞中 MYC 周围的调控景观,纽约基因组中心等单位的研究人员首先设计了一个覆盖 2.8 Mb TAD 的 CRISPR 抑制(CRISPRi)平铺文库(图 2a),以识别与癌症驱动的细胞生长相关的功能区域。虽然先前的研究使用 CRISPR 核酸酶和 CRISPRi 来绘制非编码基因组中的功能元件,但研究人员选择使用 CRISPRi 进行这些筛选,因为许多癌细胞系往往存在像 MYC 这样的癌基因扩增。如果 CRISPR 靶位点在基因组中有多个拷贝,筛选中 gRNA 的缺失可能是由于过度的 DNA 损伤和细胞凋亡,而不是与靶基因真正的调控相互作用。
在设计文库时,研究人员首先考虑了 TAD 内所有具有 NGG 原间隔相邻基序(PAM)的可能向导 RNA(gRNAs)(298,839 个 gRNAs),然后选择了其中具有高靶向活性评分且没有长度为 4 个或更多的同聚物重复的子集(补充图 2a,b)。总的来说,MYC TAD 平铺 CRISPRi 文库由 112,162 个 gRNAs 组成,中位间距为 9 nt;研究人员旨在全面覆盖 MYC TAD,而不特定针对特定的增强子相关表观遗传特征(补充图 2c)。研究人员还在 CRISPRi 文库设计中加入了针对 490 个必需基因的 gRNAs(每个基因 4 个 gRNAs)和针对 613 个非必需基因的 gRNAs(每个基因 4 个 gRNAs)(补充图 2d)。作为进一步的阴性对照,研究人员还加入了来自 GeCKOv2 文库的 1000 个非靶向 gRNAs。
为了确定平铺筛选的合适细胞系,研究人员选择了 6 种不同癌症类型的细胞系(MDA - MB - 231、A375、HT29、K562、PC9、A549)(每种癌症类型各一种,包括乳腺癌、皮肤癌、结肠癌和血癌,以及两种肺癌细胞系),这些细胞系先前报道依赖 MYC 生长,且具有相似的 MYC 拷贝数(补充图 2e)。在 Broad DepMap 先前的全基因组 CRISPR - Cas9 筛选中,MYC 在所有 6 种细胞系中都被发现是高度必需的(Chronos 评分 < - 1)(图 2b)。研究人员在每种细胞系中证实,MYC 转录本的敲低会降低细胞生长(生长减少 46% - 96%)(补充图 2f)。总体而言,研究人员在 6 种人类细胞系中筛选了超过 700,000 个遗传扰动。
研究人员以低感染复数(MOI 0.2 - 0.5)将 CRISPRi 平铺文库转导到这 6 种细胞系中,以确保大多数细胞仅接受一个 gRNA。嘌呤霉素筛选完成后,将细胞培养约 4 周,以确保有足够的时间使功能性 MYC CREs 发生 MYC 驱动的消耗(或增殖)。研究人员在早期时间点和 4 周培养期结束时分离基因组 DNA,并通过测序量化 6 次筛选开始和结束时 gRNA 的丰度。正如预期的那样,研究人员在 6 次筛选中均观察到靶向必需基因的 gRNAs 明显缺失(补充图 3a)。总体而言,MYC 基因座平铺 gRNAs 和非靶向阴性对照的分布相似,其消耗程度远低于靶向必需基因的 gRNAs。
在计算每个 gRNA 的丰度变化倍数后,研究人员使用滑动窗口方法在每种细胞系中识别显著的 CREs(图 2c,d)。由于不同细胞系对 MYC 消耗的敏感性和生长情况不同(补充图 2f),研究人员对每种细胞系分别进行这些分析。为了确定最佳窗口大小,研究人员首先检查了来自先前鉴定的基因列表重叠部分的约 500 个已知必需基因的转录起始位点(TSS)不同距离处 gRNAs 的消耗情况。研究人员发现,CRISPRi 的最佳效应半径(约为最大值的 90%)出现在距离 TSS 180 bp 以内的 gRNAs 处(补充图 3b)。鉴于文库中 gRNAs 的中位间距为 9 bp,研究人员使用包含 20 个相邻(连续)gRNAs 的滑动窗口来识别 CREs(180 bp / 9 bp)。接下来,研究人员进行了非配对、双侧 t 检验,将 gRNA 滑动窗口(每个窗口包含 20 个连续 gRNAs)的得分与混合筛选中包含的一组随机序列(非靶向阴性对照)gRNAs 的得分进行比较(所有筛选中 Benjamini - Hochberg 错误发现率(FDR) < 0.05)。
通过此过程,研究人员在每种细胞系中识别出 MYC TAD 中显著消耗的独特峰,研究人员假设这些峰是推定的增强子样 CREs(图 3a)。根据细胞系的不同,研究人员发现 0.2 - 1% 的窗口显著消耗(补充图 3c)。总体而言,研究人员在 6 种细胞系中鉴定出 32 个 CREs(图 3b)。正如预期的那样,鉴于 MYC 基因座的调控多样性(图 1d),CREs 在不同细胞系之间大多是独特的(图 2d,补充图 4a)。CREs 的大小各不相同,由 160 至 1133 个 gRNAs 组成(补充图 4b,c),长度范围从约 400 bp 到 12.8 kb(补充图 4d)。只有 5 个 CREs 在一种以上的细胞系中被发现,只有 2 个 CREs 在两种以上的细胞系中被发现,这与 MYC TAD 在不同细胞系中的调控景观高度多样性一致(图 1d)。
在研究人员鉴定出的 32 个 CREs 中,有 8 个与先前鉴定的 MYC 增强子重叠,如 MYC - LASE、BENC 或 CCAT1 周围的超级增强子区域。大多数已确定的 MYC 增强子是通过在人类或小鼠模型中进行大的缺失实验鉴定出来的,对于一种细胞系(K562),是通过类似的平铺 CRISPR 筛选鉴定的。其他 24 个 CREs 以前未被描述过,或者未在相同的组织 / 癌症中被描述过。这突出了在来自不同组织的不同细胞系中进行统一的扰动平铺筛选的巨大潜力,即使对于像 MYC 这样研究相对充分的遗传基因座也是如此。
研究人员将每种细胞系中的 CREs 与先前鉴定的增强子进行比对;其中许多增强子是通过大的基因组缺失或增强子相关标志的染色质免疫沉淀鉴定出来的(图 3b,补充数据 3)。对于这些增强子,尚不清楚这些区域中的所有碱基是否都是 CRE 活性所必需的。在大多数情况下,研究人员发现 CRISPRi 筛选得到的 CREs 更小,能够更好地定位关键功能元件。例如,在 MYC - LASE 中,研究人员在肺癌细胞和乳腺癌细胞中分别鉴定出两个独立的 CREs。在 MDA - MB - 231 乳腺癌细胞中,研究人员发现这两个增强子都存在,而在其他细胞中,研究人员发现要么存在一个增强子,要么存在另一个增强子,但不会同时存在(例如在 A549 和 A375 细胞中)。这突出了 CRISPR 平铺方法能够进一步阐明即使是已知增强子内的功能亚区域,剖析包含在像 MYC - LASE 这样更大的增强子簇中的不同 CREs 的差异使用情况。
对于在 K562(白血病)细胞中检测到的 CREs,研究人员发现与 Fulco 等人先前的 CRISPRi 筛选结果具有良好的相关性(补充图 6a,b)。研究人员鉴定出 6 个先前的增强子,它们具有相似的相对生长差异,并在非编码 RNA(ncRNA)PVT1 的启动子处发现了一个额外的抑制子样区域(补充图 6c)。这种差异可能是由于 Fulco 等人的筛选针对的是 MYC TAD 内的特定区域,而不是对整个 TAD 进行平铺筛选。
MYC 基因座中的 CREs 调节细胞生长和 MYC 表达
接下来,纽约基因组中心等单位的研究人员试图验证并测量扰动已鉴定的 CREs 后细胞增殖的变化。研究人员选择了所有筛选中排名前 3 的 CREs(CRISPRi 消耗得分最高),并在其存在的所有细胞系中对其进行靶向,同时选择一个 CRE 没有显著消耗的细胞系作为阴性对照(图 4a)。研究人员通过选择位于每个峰消耗最大值 90 bp 内的 2 - 3 个不同 gRNAs 来靶向每个峰的中心。在选择并扩增约 2 周后,研究人员使用高度灵敏的发光测定法通过 ATP 定量来测量细胞生长。与非靶向(阴性对照)gRNAs 相比,研究人员发现,在初次筛选中鉴定出 CRE 的细胞系中靶向每个 CRE 会导致细胞生长显著下降(p < 0.05,非配对 t 检验)(图 4b)。然而,在 TAD 平铺筛选未鉴定出任何显著 CRE 的细胞中靶向相同区域,不会导致生长发生显著变化。例如,在 MDA - MB - 231(乳腺癌)细胞中靶向 K562 特异性(白血病)CRE,与非靶向 gRNAs 相比,不会导致生长差异。此外,对于在 HT29(结肠癌)和 PC9(肺癌)细胞中均发现的共享 CRE,研究人员在这两种细胞系中均观察到细胞生长相对于非靶向显著下降,但在 A375(黑色素瘤)细胞中未观察到这种情况,因为在 MYC TAD 平铺筛选中,该区域在 A375 细胞中没有显著消耗。
鉴于 CRE 抑制预期比完全基因缺失的影响更温和,研究人员测量了用与细胞生长实验相同的病毒构建体转导的细胞中 MYC 的表达。研究人员发现,仅在 TAD 平铺筛选中存在 CRE 的细胞系中,靶向 CRE 后 MYC 表达才会显著下降(与非靶向 gRNAs 相比)(图 4c)。研究人员发现 MYC 表达下降与生长下降之间存在很强的一致性,这表明在 TAD 平铺筛选中鉴定出的 CREs 通过调节 MYC 表达发挥作用。
在具有经单独验证可调节生长并降低 MYC 表达的 CREs 的细胞系(K562、A375 和 HT29 / PC9)中,研究人员接下来试图了解增强子活性的常见生化标志的作用,特别是组蛋白修饰和
生物通微信公众号
知名企业招聘