高质量染色体级别雌雄高体鰤基因组图谱的构建及其在分子育种与性别分化研究中的意义

《Scientific Data》:High-quality Chromosome-level genome assembly of male and female greater amberjack (Seriola dumerili)

【字体: 时间:2025年12月11日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对高体鰤(Seriola dumerili)基因组数据不完整且缺乏雌雄个体基因组信息的瓶颈问题,利用PacBio HiFi和Hi-C技术成功构建了雌雄高体鰤染色体级别基因组。结果显示:雄性和雌性基因组大小分别为637 Mb和639.4 Mb,锚定在24条染色体上,BUSCO评估完整性分别达98.5%和98.71%。该研究为高体鰤的分子育种、物种保护及性别分化机制研究提供了重要基因组资源。

  
在辽阔的海洋中,高体鰤(Seriola dumerili)作为一种具有重要经济价值的海水鱼类,因其生长速度快、肉质鲜美且富含不饱和脂肪酸而成为海水养殖的重要对象。然而,科学家们在对这种鱼类进行深入研究时却面临着两大挑战:一是现有的基因组数据不完整且碎片化,限制了分子生物学研究的深入开展;二是高体鰤即使在繁殖季节也缺乏明显的第二性征,仅凭外观难以区分雌雄个体,这给人工繁殖工作带来了巨大困难。
随着现代分子生物学技术的发展,高质量基因组数据已成为物种研究的重要基础。此前,虽然已有高体鰤的基因组资源(如GCA_002260705.1),但其组装碎片化严重(contig N50仅为0.25 Mb),注释也不完整。而较新的染色体级别组装(GCA_041682515.1)又仅限于单一性别。这种数据缺口严重制约了高体鰤性别分化机制、分子育种和进化研究的发展。
为了解决这些问题,由中国科学院水生生物研究所陈戟研究员和南方海洋科学与工程广东省实验室(湛江)朱春华研究员领导的研究团队在《Scientific Data》上发表了最新研究成果。他们采用第三代测序技术PacBio HiFi长读长测序与Hi-C染色体构象捕获技术相结合的策略,成功构建了雄性和雌性高体鰤的高质量染色体级别基因组图谱。
研究团队采用了多项关键技术方法:从福建沿海采集的野生高体鰤(3雄3雌)肌肉组织用于DNA测序,多种组织(肌肉、心脏、肝脏、脾脏、肾脏和性腺)用于RNA测序。利用DNBSEQ短读长、PacBio HiFi长读长和Hi-C支架数据组装基因组,并通过Iso-seq和RNA-seq数据进行基因组注释。使用Jellyfish和GenomeScope进行基因组调查,HiFiasm进行重叠群组装,3D-DNA进行染色体支架构建,RepeatMasker进行重复序列注释,Augustus和Maker进行基因预测。
背景与摘要
高体鰤属于鲹科、鰤属,是一种分布在全球亚热带水域的中型肉食性海洋鱼类。由于其快速生长特性和富含不饱和脂肪酸的鲜美肉质,已成为海水养殖的重要对象。近年来,研究人员重点关注了高体鰤的人工繁殖技术发展,特别是在生殖发育、免疫、营养和应激适应等经济性状方面的研究。其中,性腺发育和生殖特性以及高效催产剂的开发受到了特别关注。
高质量基因组数据是高体鰤现代分子研究的基础。此外,高体鰤即使在产卵季节也缺乏明显的第二性征,使得基于形态学的性别鉴定具有挑战性。因此,构建高质量的雌雄高体鰤基因组将为阐明高体鰤性别分化机制奠定基础。
方法
样本收集
研究团队从中国福建省沿海捕获了三雄三雌野生高体鰤。通过性腺石蜡切片进行性别鉴定,并从6尾鱼中采集了包括肌肉、心脏、肝脏、脾脏、肾脏和性腺在内的组织样品。这些样品立即在液氮中冷冻用于RNA测序,同时分别取雄性和雌性的肌肉组织用于DNA测序。
文库构建、测序和数据准备
从肌肉组织中分离高质量基因组DNA用于PacBio HiFi文库构建。使用DNBSEQ生成150-bp短插入文库用于基因组调查分析。获得95.11 Gb(雄性)和94.12 Gb(雌性)高质量过滤数据后,使用Megaruptor系统将基因组DNA剪切为13-16 kb片段,通过SageELF仪器进行大小选择以构建PacBio HiFi文库。
对于Hi-C文库,肌肉细胞用甲醛交联并用Mbol限制性内切酶消化。消化后的DNA末端用生物素-14-dCTP标记,随后进行邻近连接、去交联和苯酚-氯仿纯化。使用链霉亲和素磁珠富集生物素化片段用于文库制备。
为了全面基因组注释,从五种组织(心脏、肝脏、脾脏、肾脏和性腺)中提取总RNA。使用Illumina NovaSeq 6000平台获得RNA-seq数据,而Iso-seq文库则使用PacBio Sequel II系统进行测序和处理。
基因组调查
使用Jellyfish(v2.1.4)进行高体鰤基因组的k-mer调查分析。通过GenomeScope(v2.0)建模k-mer谱估计基因组特征。结果显示雄性基因组大小为636.21 Mb,杂合度为0.375%,重复序列含量为14.94%;雌性基因组估计为630.31 Mb,杂合度为0.46%,重复序列为14.48%。
高体鰤染色体级别基因组组装
通过整合PacBio HiFi长读长和Hi-C支架数据,生成雄性和雌性高体鰤基因组的染色体级别从头组装。使用HiFiasm(v0.16.1)产生重叠群级别组装,Hi-C读数通过BWA(v0.7.17-r1188)比对到草图重叠群,使用Juicer(v1.5.6)计算作图效率指标。通过3D-DNA(v180922)进行染色体支架构建,并进行人工整理。
最终获得的637 Mb(雄性)和639.4 Mb(雌性)组装体解析了24条染色体。通过将基因组划分为1-kb区间并量化区间对之间的Hi-C读对,生成接触频率矩阵,可视化为相互作用热图。
重复序列注释
通过基于同源性的筛选和从头预测对重复序列进行注释。使用RepeatMasker(v4.0.7)通过RepBase(v21.12)库进行同源性检测以识别已知重复元件。从头预测基于序列比较,使用LTR_FINDER(v1.06)和RepeatModeler(v2.0.1)创建从头重复序列库,然后通过RepeatMasker进行预测。使用Tandem Repeats Finder(v4.09)识别基因组中的串联重复。
最终,重复序列占雄性基因组的23.12%和雌性基因组的23.48%。详细分析显示,逆转录转座子(I类)在雄性中占4.42%,雌性中占4.84%;DNA转座子(II类)在雄性中占10.99%,雌性中占11.44%。
蛋白质编码基因预测和注释
结合从头预测和基于证据的方法预测基因结构。通过Augustus(v3.3.2)进行从头注释。证据导向的注释结合了转录组证据、同源性证据和跨物种蛋白质序列。通过Blat比对转录组证据(RNA-seq和Iso-seq数据)。使用来自近缘物种的同源性证据,如长背鰤(Seriola rivoliana)、黄尾鰤(Seriola lalandi Dorsalis)、斑马鱼(Danio rerio)、金鲳(Trachinotus ovatus)、五条鰤(Seriola quinqueradiata)和高体鰤(Seriola dumerili)。使用Maker(v2.31.10)生成整合基因模型。
通过表达谱分析和跨物种保守分析优化最终基因集。通过eggNOG和BLAST在GO、KEGG、COG、NR、swissprot等数据库中对基因进行功能注释。最终在雄性和雌性基因组中分别获得24,112个(87.92%)和23,571个(89.03%)功能注释基因。
基因结构统计显示,雄性基因数为27,425个,雌性为26,476个。雄性基因中位长度为6,134 bp,平均长度为9,366.25 bp;雌性基因中位长度为6,403 bp,平均长度为9,617.61 bp。功能注释结果显示,在nr数据库中的注释比例雄性为87.87%,雌性为88.97%;在swissprot数据库中的注释比例雄性为80.29%,雌性为82.33%。
雌雄高体鰤基因组间的高同线性
为了比较雌雄基因组间的染色体结构差异,研究团队进行了全基因组同线性分析。使用JCVI工具包基于基因注释结果识别两个基因组间的直系同源基因块,并进一步过滤可靠的同线性块。
结果显示雌雄基因组间具有高度同线性。大多数染色体区域显示出一对一的同线性对应关系,未检测到大规模结构变异(如染色体易位、倒位或重复)。这表明高体鰤的宏观染色体结构在雌雄个体间高度保守,没有形成明显的异形性染色体。
数据记录
所有高体鰤的原始测序数据集已上传至NCBI数据库,BioProject登录号为PRJNA1309863。PacBio HiFi数据、DNB-seq、Hi-C数据、RNA-seq和Iso-seq数据已存入SRA。高体鰤基因组组装数据已存入国家基因组数据中心的基因组仓库,登录号为GWHFKZW00000000.1(雄性)和GWHFKZX00000000.2(雌性)。基因组组装和注释数据存入Figshare数据库。
技术验证
基因组评估
使用BUSCO(v5.8.3)评估组装质量。利用actinopterygii_odb12库评估组装完整性。雄性高体鰤支架级别基因组的BUSCO完整性为98.5%,雄性注释基因集的BUSCO评估为90.23%。雌性支架级别基因组的BUSCO评估为98.71%,注释基因集为90.31%。BUSCO评估显示基因组组装和基因预测质量高。
具体而言,雄性基因组中完整BUSCOs为7,099个(98.50%),其中完整单拷贝BUSCOs为7,093个(98.42%),完整重复BUSCOs为6个(0.08%)。雌性基因组中完整BUSCOs为7,114个(98.71%),其中完整单拷贝BUSCOs为7,107个(98.61%),完整重复BUSCOs为7个(0.10%)。与参考基因组GCA_041682515.1(完整BUSCOs为7,113个,98.70%)相比,本研究组装的基因组质量相当甚至更优。
研究结论与意义
本研究成功构建了雄性和雌性高体鰤的高质量染色体级别基因组,为这种具有重要经济价值的海洋鱼类的分子生物学研究提供了坚实基础。基因组组装质量高,雌雄基因组均锚定在24条染色体上,BUSCO完整性评估超过98.5%,表明组装完整性极佳。
通过系统的重复序列注释和基因预测,研究人员获得了高质量的基因注释结果,超过87%的预测基因在公共数据库中获得功能注释。特别重要的是,同线性分析显示雌雄高体鰤基因组间具有高度保守的染色体结构,没有发现明显的异形性染色体,这为研究高体鰤性别决定机制提供了重要线索。
该研究的创新性在于首次提供了雌雄高体鰤的高质量基因组资源,填补了该物种基因组数据的空白。这些基因组数据将极大地促进高体鰤的分子育种工作,为优良性状的选育提供基因级信息;有助于物种保护研究,通过基因组信息了解种群遗传结构;推动进化生物学研究,通过比较基因组学探讨鲹科鱼类的进化历程。
此外,高质量基因组数据将为解析高体鰤性别决定机制奠定基础,有望解决生产中性别鉴定困难的问题。研究人员可以基于这些基因组数据开发分子标记,实现高体鰤的早期性别鉴定,从而优化人工繁殖策略,提高养殖效率。
总之,这项研究不仅提供了高质量的科学数据资源,也为高体鰤的可持续养殖和遗传改良提供了重要工具,对推动海水养殖产业发展具有重要实践意义。基因组数据已公开共享,将为全球相关领域研究人员的后续工作提供宝贵资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号