编辑推荐:
为解决柑橘基因组重复序列注释不全面的问题,研究人员开展了柑橘重复序列注释的研究。他们结合多种重复序列检测程序,构建了包含 3,091 条共识序列的参考文库,这有助于理解重复序列在柑橘物种形成中的动态变化,对柑橘育种意义重大。
在植物基因组的研究领域中,重复序列就像是隐藏在遗传密码里的神秘 “拼图”。过去的二十年里,DNA 测序技术突飞猛进,植物基因组测序的成本大幅降低,使得越来越多的植物基因组被成功组装。重复序列作为真核生物基因组的重要组成部分,其中转座子(TEs)能够在基因组中大量复制并插入染色体,曾经被当作 “垃圾 DNA”,但如今已被证实是基因组动态变化和物种进化的关键角色 。比如在葡萄、甜瓜、番茄等作物中,TEs 的插入会引起果实颜色、性别决定、果实形态等性状的改变。卫星 DNA 主要存在于植物基因组的着丝粒等特定区域,参与异染色质的形成,对基因组结构和染色体稳定性起着重要作用。内源性花椰菜花叶病毒(ECVs)则是植物基因组中另一类神秘的重复 DNA 序列,由花椰菜花叶病毒科成员的基因组序列在感染过程中整合到宿主基因组形成,不过目前其在植物基因组结构和进化中的作用还未完全明晰。
对于柑橘这种经济价值极高的作物来说,其果实年产量在 2023 年就超过了 1 亿吨。重复序列在柑橘的基因组结构变异中发挥着重要作用,进而影响其表型,例如甜橙品种中特定 TEs 的插入与血橙颜色、无融合生殖、酸度变化等性状相关。然而,目前柑橘基因组重复序列的注释存在诸多问题,不同研究使用的生物信息学工具各异,导致注释结果差异较大,很多类型的重复序列未能被全面识别,ECVs 的多样性也未得到充分研究。
为了解开柑橘基因组重复序列的谜团,来自法国多个研究机构(UR AGAP Corse, INRAE, Institut Agro, CIRAD, University of Montpellier 等)的研究人员开展了一项深入研究。他们的研究成果发表在《BMC Genomic Data》上。
研究人员为了构建柑橘基因组重复序列的参考文库,使用了多种关键技术方法。首先,运用 REPET、CAULIFINDER、TAREAN 等多种重复序列查找程序。在分析基因组序列时,对基因组组装数据进行筛选,去除含大量未定义碱基(Ns)的片段,保留特定长度的序列片段进行后续分析。同时利用多种分类工具和数据库,对检测到的重复序列进行分类和筛选,还通过 BLAST 等比对工具,去除冗余序列 。
研究结果主要体现在以下几个方面:
- 精细注释转座子(TEs):研究人员对柑橘四个祖先物种(C. medica、C. micrantha、C. reticulata 和 C. maxima)的基因组进行精细注释。利用 REPET v3.0 软件包中的 TEdenovo 管道检测重复序列,再通过 PASTEC 分类器根据结构和功能特征进行分类,去除简单序列重复(SSR)、rDNA、潜在宿主基因(PHG)等序列。经过多次筛选和手动整理,最终得到了代表 TEs 和 ECVs 多样性的精细注释文库 。
- 注释内源性花椰菜花叶病毒(ECVs):对于 ECVs 的鉴定,研究人员特别关注含有运动蛋白结构域(MP)的序列,将其与已知花椰菜花叶病毒逆转录酶(RT)蛋白序列进行 BLASTx 分析,保留与花椰菜花叶病毒 RTs 比对 e 值小于 1e- 06 的序列,确认为 ECVs 并纳入注释文库 。
- 注释卫星 DNA:利用 TAREAN 程序对 Illumina 测序数据进行分析,通过图形聚类的方法识别卫星 DNA 的单体单元,对四个祖先物种的基因组进行检测,共鉴定出 8 种不同的卫星 DNA 并添加到精细注释文库 。
- 丰富注释文库:为了更全面地涵盖柑橘属的重复序列多样性,研究人员将研究范围扩展到其他 8 个柑橘物种和 2 个相关物种。开发了一种更快的注释方法,利用之前的精细注释文库作为参考,最终得到了包含 3,091 条共识序列的最终参考文库,其中 TEs 占 94.5%,ECVs 占 5.2%,卫星 DNA 占 0.3% 。
研究结论和讨论部分指出,该研究构建的最终参考文库为研究柑橘基因组中重复序列的动态变化提供了重要资源,有助于深入了解重复序列在柑橘物种形成过程中的作用,特别是在基因组加倍和杂交事件后的变化。通过 RepeatLoc Citrus 这一在线界面,能够直观地观察重复序列在染色体上的分布,进一步探究 TEs 和 ECVs 在基因组结构和基因调控中的作用。此外,与其他研究构建的文库相比,该研究的文库和方法能更有效地揭示柑橘属中 TEs、ECVs 和卫星 DNA 的多样性。这一研究成果为柑橘育种提供了重要的理论支持,有望推动柑橘产业的进一步发展,帮助培育出更优良的柑橘品种。