编辑推荐:
为解决银鲴(Xenocypris argentea)遗传学和基因组学研究匮乏,以及鲴亚科(Xenocyprinae)系统发育关系不明等问题,研究人员开展银鲴染色体级基因组组装与注释研究。结果获得 984.96 Mb 的高质量基因组,该成果为相关研究提供重要资源。
在广袤的淡水水域中,银鲴作为一种中小型鲤科鱼类,默默扮演着重要角色。它广泛分布于我国各大水系及附属湖泊,常栖息在水体中下层,以腐烂沉积物、硅藻和附着藻类为食,凭借自身特性成为净化水质、优化水产养殖结构的 “得力助手”。不仅生长迅速、疾病发生率低,还具备强大的繁殖能力和适应能力,在不同水域形成了多样的地理种群,蕴含着丰富的遗传资源。
然而,近年来人类活动的干扰给银鲴带来了严峻挑战,其自然种群数量急剧下降。更令人担忧的是,科学界对银鲴的了解十分有限。目前的研究大多集中在生态学、生物学、育种技术、遗传多样性和分子标记开发等方面,而关于银鲴基因组学、适应性进化和遗传分析的数据及研究极为匮乏。这严重阻碍了人们对银鲴的深入认识、有效保护和合理利用。同时,在鲤科鱼类分子系统学研究中,鲴亚科的系统发育关系一直模糊不清,以往基于少数线粒体或核基因的研究结果,常因所用分子标记不同而存在差异。
为了填补这些知识空白,长江水产研究所的研究人员勇挑重担,开展了一项具有开创性的研究 —— 构建银鲴的染色体级基因组。这项研究成果发表在《Scientific Data》上,为后续深入探究银鲴的遗传奥秘奠定了坚实基础。
在研究过程中,研究人员运用了多种前沿技术。首先,他们精心挑选了一条来自湖南株洲醴陵原种场的健康雄性银鲴,采集其肌肉、脑、心脏、脾脏、鳃和肝脏组织。接着,利用 PacBio HiFi、Hi-C 和 Illumina 双端测序技术对样本进行测序,分别获得 38.37 Gb 的 HiFi 长读长数据(41×)、181.19 Gb 的 Hi-C 数据(192×)和 61.85 Gb 的 Illumina 短读长数据(66×) 。之后,通过一系列复杂的生物信息学分析方法,如使用 Jellyfish 和 Genomescope 估算基因组大小,运用 HiFiasm 进行基因组组装,借助 ALLHiC、3D-DNA 和 Juicer 等工具将 contigs 锚定到染色体上等,成功完成了银鲴基因组的组装与注释工作。
基因组大小估计与组装
研究人员先对原始短读长数据进行过滤,去除测序接头和低质量 reads,基于得到的 60.50 Gb 清洁数据,构建 19 - mer 频率深度分布,进而估算出银鲴基因组大小约为 949.39 Mb,杂合率为 0.81%。经过对 PacBio 测序数据的处理,获得 38.38 Gb 的 HiFi reads,利用 HiFiasm 软件进行从头组装,得到了总长度为 984.96 Mb、contig N50 达 36.02 Mb 的 contig 水平基因组。在此基础上,借助 Hi-C 数据,研究人员进一步将 99.47% 的 contigs 锚定到 24 条染色体上,其中 18 条染色体无间隙,成功构建出染色体级别的基因组。同时,还组装并注释了银鲴的线粒体基因组,其大小为 16,617 bp,包含 13 个独特的蛋白编码基因、22 个 tRNAs 和 2 个 rRNAs。
重复序列注释
研究人员使用 RepeatModeler 和 LTR_finder 对银鲴基因组中的重复序列和 LTR 序列进行从头预测,经过去重、合并等操作后,得到一个重复序列库。再利用 RepeatMasker 和 RepeatProteinMask 在重复序列库中搜索重复元件,最终确定银鲴基因组中共有 560.27 Mb 的重复序列,占组装基因组的 56.88%。
蛋白质编码基因的结构与功能注释
在蛋白质编码基因的结构注释方面,研究人员采用了转录辅助预测、基于同源证据的预测和从头预测相结合的方法。通过对 RNA 测序数据的处理和分析,结合多个物种的蛋白质序列进行同源比对,并利用多种软件进行从头预测,最终合并所有预测结果,得到了包含 28,533 个蛋白质编码基因的高可信度基因集。这些基因平均外显子数为 9.57,外显子长度为 310.71 bp,CDS 长度为 1,639.41 bp。在功能注释上,研究人员将预测的蛋白质模型与 UniProt、NR 和 KEGG 等数据库进行比对,同时对蛋白质的基序、结构域和保守序列进行注释,结果显示 95.62%(27,284 个)的预测基因在公共数据库中得到了功能注释。此外,还鉴定出了多种非编码 RNA,包括 1,683 个 miRNAs、14,772 个 tRNAs、5,954 个 rRNAs 和 1,805 个 snRNAs。
技术验证
为确保研究结果的可靠性,研究人员对基因组组装和注释进行了严格的技术验证。通过 BUSCO 评估发现,在 Actinopterygii_odb10 数据库中,组装基因组的完整 BUSCOs 占比达到 97.2%,Illumina 短读长数据对组装基因组的映射率为 99.89%,基因组的 QV 值为 52.22,这些指标充分证明了基因组组装的高完整性和高质量。在染色体组装质量评估中,Hi-C 热图对角线显示出强相互作用信号,且 18 条染色体均由单个 contig 组成,染色体共线性分析也表明银鲴与其他相关物种基因组具有高度一致性。在基因组注释质量评估方面,BUSCO 分析显示完整 BUSCOs 占比为 93.4%,同时与其他 5 个相关物种的基因元件长度分布比较结果也表明注释结果可靠。
这项研究成功构建了银鲴的染色体级基因组,为银鲴的种群遗传学、系统发育学、比较基因组学、适应性进化研究以及种质资源保护与利用提供了宝贵的数据资源。通过对银鲴基因组的深入分析,研究人员能够更全面地了解银鲴的遗传特征和进化历程,挖掘其适应环境的遗传机制,为保护这一物种提供科学依据。此外,该研究结果也有助于进一步明确鲴亚科鱼类的系统发育关系,推动鲤科鱼类分子系统学的发展。在水产养殖领域,高质量的基因组信息可以为银鲴的遗传改良和育种提供指导,促进水产养殖业的可持续发展。总之,这项研究成果具有重要的理论意义和实际应用价值,为银鲴及相关物种的研究开辟了新的道路。