长臂猿基因组探秘:解析染色体演化与着丝粒的独特奥秘

【字体: 时间:2025年03月15日 来源:Cell Genomics 11.1

编辑推荐:

  本文通过组装东白眉长臂猿(HLE)基因组,揭示其着丝粒特征及染色体演化机制。

  ### 研究背景
长臂猿(family Hylobatidae)是一类小型猿类,约有 20 种,与大猿在约 1700 万年前分化。与大猿稳定的核型不同,长臂猿经历了高频的染色体重排,这导致其核型多样,染色体数目在不同属间存在差异,如 Hoolock 属(2n = 38)、Nomascus 属(2n = 52)、Symphalangus 属(2n = 50)和 Hylobates 属(2n = 44)。在长臂猿中,快速的染色体重排伴随着着丝粒的频繁更替,例如东白眉长臂猿(Hoolock leuconedys,HLE)就保留了至少 22 个属特异性染色体重排、13 个失活着丝粒和 6 个进化新着丝粒(ENCs)。
人类着丝粒由 171bp 富含 AT 的 α 卫星阵列和更大的高阶阵列(HORs)组成,而许多长臂猿物种的着丝粒缺乏这种典型的 α 卫星阵列结构。此外,虽然已有研究在人类全基因组中鉴定出一些定义着丝粒功能的表观遗传特征,如活性着丝粒处的 CpG 甲基化降低区域(着丝粒低甲基化区域,CDR)、晚复制时序和染色质的二分性压实(dichromatin),但这些特征在人类以外的物种以及无卫星阵列的着丝粒中的保守性和功能尚未明确。同时,尽管长臂猿的染色体重排率比其他灵长类动物高得多,但其驱动因素仍未完全明晰。一种名为 LAVA 的活跃的约 2kb 长臂猿特异性复合反转录转座子,被认为可能与长臂猿的核型变异有关,它在不同属中的传播速率不同,在 Hoolock 物种的着丝粒和着丝粒周围区域最为丰富。因此,东白眉长臂猿是研究快速核型演化过程中重排断点与着丝粒更替之间潜在关系的理想模型。

研究方法


为了探究东白眉长臂猿的着丝粒和染色体重排情况,研究人员对一只雌性东白眉长臂猿(Betty)进行了基因组测序。通过生成约 59× 覆盖度的牛津纳米孔技术(ONT)长读长测序数据(包括约 19.5× 覆盖度的超长测序)、62× 覆盖度的 Illumina 无 PCR 测序和 29× 覆盖度的 Dovetail Omni-C 测序,经过组装、脚手架搭建和优化后,得到了最终参考基因组cmHooLeu1。该基因组由 19 个支架组成,对应 HLE 的单倍体染色体数,总长度为 2.761Gb,N50 为 159.997Mb。通过 BUSCO 分析评估基因集完整性,使用 Merqury 软件确定共识质量(QV)得分,以评估基因组组装质量。

研究人员还进行了多种实验来分析着丝粒相关特征。利用 CENP-A CUT&RUN 测序鉴定着丝粒区域,通过分析转座元件(TEs)、CpG 甲基化、染色质可及性、复制时序、转录、RNA 聚合酶占据和基因组空间构象等,来确定 HLE 基因组中着丝粒的身份和断点。

研究结果


  1. 基因组组装与注释cmHooLeu1 基因组组装质量良好,其预期基因集的完整性达到 95.5%,QV 得分为 46.71,大致相当于 99.997% 的核苷酸准确率。基因组的重复序列含量为 50.38%,主要包括长散在核元件(LINEs,21.54%)、短散在核元件(SINEs,14.09%)和长末端重复序列(LTRs,8.57%),其中 LAVA 占组装基因组的 0.7%,高于其他长臂猿属。预测出 20,113 个蛋白质编码基因,并通过精确运行测序(PRO-seq)评估了新生转录组,发现转录活性最高的重复序列是 SINEs、LINEs 和 LTRs,卫星转录水平较低。
  2. HLE 着丝粒的特征:HLE 着丝粒的 CENP-A 富集区域平均跨度为 127kb,小于人类 CHM13 着丝粒的平均大小。其重复内容高度可变且复杂,主要由 TEs 组成,不同着丝粒的 TE 组成存在差异。例如,LINEs 在三个未折叠的着丝粒(Cen1、Cen3 和 Cen9)中最为普遍,其次是 SINEs 和 LTRs 的混合。只有两个着丝粒(Cen3 和 CenX)含有灵长类着丝粒 α 卫星,且仅在 CenX 中 α 卫星是 CENP-A 富集区域的主要成分。所有组装的着丝粒都缺乏人类和其他灵长类中存在的高度同源的 α 卫星 HOR 扩展区域,但在着丝粒核心两侧常存在高序列同一性的卫星阵列。尽管 HLE 着丝粒的组成与其他猿类不同,但它们都含有 CDR,且与 CENP-A 的富集区域重叠,同时还存在二分性染色质,这表明这些表观遗传特征在猿类谱系中是保守的,且独立于 α 卫星。
  3. 着丝粒区域的基因重排:在五个组装的着丝粒中,共鉴定出 21 个预测基因位于 CENP-A 富集区域的 200kb 范围内。在 Cen9 中,预测基因与 CENP-A 富集区域直接重叠,其中磷脂 scramblase 2(PLSCR2)基因在人类中位于 chr3 的同线性区域,但在 HLE 中,该基因所在的磷脂 scramblase 基因簇被打乱,相关基因被分离到不同染色体上,且在 HLE 的 Cen9 区域未检测到PLSCR2外显子,暗示该基因可能在重组过程中丢失。
  4. 染色体不稳定性的相关特征:研究人员预测 HLE 着丝粒中存在节段性重复(SDs)和不同的复制时序。通过 BISER 软件在 HLE 组装中鉴定出 2,842 个 SDs,这些 SDs 在着丝粒区域的覆盖比例较高,且部分 SDs 与 LAVA 和 SST1 重复序列重叠,表明着丝粒周围区域富含染色体间的重复。在复制时序方面,五个组装的着丝粒中,有三个(Cen1、Cen3 和 CenX)符合中晚期 S 期复制时序的预期,而 Cen9 和 Cen11 则表现出中早期 S 期复制的证据,且 Cen9 在周围着丝粒区域的 LAVA 阵列附近存在从早期到晚期 S 期的复制时序转变。
  5. HLE Cen17 的独特特征:HLE Cen17 是 Hoolock 属特有的 ENC,由一种独特的复合重复序列 L5A5 组成,该重复序列在其他猿类中未被报道。L5A5 重复序列由 10 个亚基组成,平均长度为 3,319bp,在 HLE 中以串联方式排列约 24 次,估计每个单倍体中有约 577 个拷贝。在其他灵长类动物中,虽然也存在 L5A5 重复序列,但每个单倍体只有一个拷贝,且序列存在差异。这表明 L5A5 复合重复序列的扩增可能与 Hoolock 属特异性着丝粒的形成有关。
  6. HLE 断点的特征:通过将cmHooLeu1 与人类、NLE、HMO 和 SSY 的参考基因组进行比对,共鉴定出 364 个进化断点(EBRs)。其中,13 个(约 68%)HLE 着丝粒与预测的断点重叠。与基因组整体重复序列相比,断点区域含有更高比例的 LAVA 元件、SST1s 和 SINEs,且 LINEs 的比例较低。部分转座元件(如 L1Hylob LINEs 和 LAVA 元件)在断点区域的甲基化水平较低,这可能与长臂猿的基因组不稳定性有关。此外,EBRs 与拓扑相关结构域(TAD)边界相关,断点处的染色质相互作用频率降低,绝缘分数下降,且较老的断点(HyA)比年轻的断点具有更强的绝缘性和更低的核苷酸多样性。

研究讨论


本研究利用长读长测序技术成功组装了东白眉长臂猿的基因组,并对其着丝粒进行了深入分析。研究发现,HLE 着丝粒在 TEs 和卫星组成上与其他猿类不同,但保留了保守的表观遗传特征,如 CDR 和二分性染色质。这表明这些表观遗传结构在灵长类着丝粒中具有普遍性,且不依赖于特定的序列类型或组织形式。

同时,研究还揭示了 HLE 着丝粒的一些独特特征,如基因重叠和不同的复制时序,这些特征与人类着丝粒存在显著差异。基因重叠可能导致基因功能的改变,而复制时序的差异可能与基因组不稳定性相关。此外,研究人员在 HLE 断点处发现了特定转座元件的低甲基化现象,以及断点与 TAD 边界的关联,这些都为解释长臂猿的核型多样性提供了重要线索。

综合来看,研究人员推测一系列相互关联的表观遗传和遗传特征,而不是单一因素,共同促成了长臂猿基因组的重塑。这些特征包括低甲基化、染色质压实、TEs、SDs 和卫星阵列等,它们可能共同对 HLE 基因组施加独特的复制压力,导致染色体不稳定,进而推动了长臂猿的核型演化。

研究展望


本研究为理解长臂猿独特的染色体演化机制提供了重要依据,但仍有许多问题有待进一步探索。例如,虽然发现了一些与染色体不稳定性相关的特征,但复制压力与染色体不稳定性之间的因果关系尚不明确。此外,需要进一步研究这些特征在其他长臂猿属中的普遍性,以确定它们在整个长臂猿科染色体演化中的作用。未来,持续生成高质量的长臂猿基因组资源,将有助于深入揭示长臂猿染色体演化的分子机制,同时也为这些濒危物种的保护管理提供重要的基因组信息。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号