然而,果蝇基因组中快速进化的重复区域研究却困难重重。转座子(TEs)和串联重复序列构成的这些区域,由于缺乏全属范围的染色体水平组装,研究进展缓慢。此前,虽然对果蝇基因组的研究取得了一些成果,但对于这些重复区域的了解仍十分有限,不同物种着丝粒卫星 DNA 的组成、组织和进化机制更是谜团重重。为了揭开这些谜团,来自英国剑桥大学(University of Cambridge)的研究人员 Daniel Gebert、Amir D. Hay、Jennifer P. Hoang 等开展了一项极具意义的研究,相关成果发表在《Genome Biology》杂志上。
研究人员为了实现高质量的基因组组装,采用了多种先进技术。他们整合了长读长基因组测序(如牛津纳米孔技术 ONT)和染色体捕获技术(HiC - seq)。通过 HiC 测序,利用染色质相互作用信息将长读长测序产生的重叠群(contigs)组装成染色体水平的基因组。同时,他们还运用了多种生物信息学工具,如 MAKER 用于基因注释,HiTE 用于转座子注释,TRASH 用于卫星 DNA 注释等。此外,研究中使用的果蝇样本来自多个果蝇物种资源中心,确保了样本的多样性。
基因组支架构建和注释
研究人员对 30 种果蝇进行 HiC 测序,结合已有的 ONT 测序数据,通过优化的计算流程和人工校正,成功构建了高质量的染色体水平基因组组装。与以往的组装相比,新组装在重复区域的连续性和完整性上有显著提升,N50值大幅提高,部分物种提升超过 25 倍。通过与黑腹果蝇(D. melanogaster)参考基因组比对,研究人员将基因组按照 Muller 元件命名法进行组织,大部分基因组序列能准确分配到相应的 Muller 元件,且发现未组装的重叠群可能与雄性特异性 Y 染色体相关。在基因和重复序列注释方面,研究人员确定了各物种的基因数量和同源性,同时发现不同物种间转座子和卫星 DNA 的含量及分布存在差异,如 ananassae 亚组的物种含有较高比例的转座子和卫星 DNA。
染色体基因组组织
HiC 数据不仅用于基因组组装,还揭示了 Muller 元件之间的物理接触和染色体组织方式。研究发现,30 种果蝇可分为 8 种基因组构型,不同亚组的染色体组织存在差异。例如,ananassae 亚组的 A 和 F 染色体为中着丝粒结构,与其他亚组不同;obscura/pseudoobscura 亚组和 willistoni 亚组部分物种的 A 和 D 元件融合形成中着丝粒染色体;virilis 亚组多数物种的 Muller 元件相互独立。这些结果表明,果蝇染色体的进化存在多种路径,不同亚组经历了独特的染色体结构变化。
基因组重排和染色体结构进化
通过对基因注释和 GENESPACE 软件分析,研究人员重建了果蝇基因组重排的进化历史。发现 Muller 元件之间的遗传物质交换极为罕见,主要发生在物理连接的元件之间。如在 D. erecta、D. yakuba 和 D. teissierei 的谱系中,B 和 C 元件发生了着丝粒周围的倒位;D. persimilis 和 D. pseudoobscura 中,A 和 D 元件融合后,A 元件的部分 DNA 转移到了 D 元件的着丝粒周围区域。此外,研究还发现基因组重排率随进化距离的变化趋势,以及一些基因簇在进化中保持高度保守,这些基因簇可能为研究基因功能和调控提供新模型。
以 ananassae 亚组新出现的中着丝粒 A 元件(X 染色体)和 D. littoralis 的中着丝粒 E 元件为例,研究人员深入探讨了中着丝粒 Muller 元件的进化机制。通过与外群物种比较,发现 ananassae 亚组中着丝粒 A 元件的新结构可能源于内部新着丝粒区域的出现和扩展,而非着丝粒的重新定位;D. littoralis 中着丝粒 E 元件的形成则可能是通过染色体重排,使常染色质区域与异染色质区域交换位置。这表明不同的染色体进化路径可导致中着丝粒 Muller 元件的产生。
转座子和卫星 DNA 的基因组分布
研究发现,转座子在果蝇基因组中主要集中在着丝粒周围区域,而卫星 DNA 的分布在不同物种间差异较大。大多数物种的卫星 DNA 含量较低且分散在常染色质臂上,而 ananassae 亚组(除 D. ananassae 外)的物种含有大量复杂卫星 DNA,这些卫星 DNA 在着丝粒周围区域形成大型连续结构,与拟南芥(Arabidopsis thaliana)和哺乳动物基因组的着丝粒结构相似。对黑腹果蝇的研究进一步证实,新的基因组组装能够更准确地识别卫星 DNA 序列,为研究卫星 DNA 分布提供了更可靠的数据。
ananassae 亚组卫星 DNA 结构
针对 ananassae 亚组丰富多样的卫星 DNA,研究人员进行了深入分析。通过主坐标分析(PCoA)发现,该亚组大部分卫星 DNA 序列在进化上具有保守性,且可分为三个潜在的卫星 DNA 簇。其中,簇 1 的卫星 DNA 主要分布在着丝粒 / 近着丝粒区域,簇 2 和 3 的卫星 DNA 主要分布在常染色质臂上。进一步研究发现,该亚组着丝粒周围区域的卫星 DNA 由几个主要家族组成,如 “Fam1”“Fam2” 和 “Fam3”,这些家族在不同物种和染色体上的分布存在差异,且它们的出现和辐射可能发生在 D. ananassae 物种形成之后。
研究人员通过整合长读长测序和染色体捕获技术,成功构建并注释了 30 个果蝇染色体水平的基因组。这一研究成果为深入了解果蝇基因组进化提供了丰富的数据资源,揭示了基因组重排、染色体结构进化以及卫星 DNA 动态变化的规律。同时,研究发现 ananassae 亚组在卫星 DNA 和着丝粒结构方面的独特性,使其成为研究着丝粒结构进化的理想模型系统。该研究不仅推动了对果蝇基因组的理解,也为真核生物基因组中重复序列进化的研究提供了新的思路和方法,有助于进一步探索基因组功能和进化的奥秘。