《Scientific Data》:Haplotype-resolved genome assembly of the tetraploid Youcha tree Camellia meiocarpa Hu
编辑推荐:
为探究油茶物种尤其是自然多倍体的基因组特征,湖南林业科学院等研究人员开展了四倍体攸茶(Camellia meiocarpa Hu)单倍型解析基因组组装研究。成功构建其染色体水平基因组,明确基因组特征。该研究助力油茶遗传育种与保护,意义重大。
在植物的奇妙世界里,油茶作为重要的木本食用油料植物,有着超 2300 年的栽培历史,其用途广泛,在全球粮食危机的大背景下愈发受到关注。攸茶(
Camellia meiocarpa Hu)是其中一员,它叶茂花大果丰,极具农业利用潜力。然而,四倍体攸茶的染色体水平基因组数据匮乏,且多倍体油茶物种高质量基因组公布较少,缺乏单倍型尺度的基因组差异研究。这就好比在探索油茶奥秘的道路上,关键地图缺失,严重阻碍了对其深入了解和利用。
为填补这些空白,湖南林业科学院、国家油茶工程技术研究中心等研究机构的研究人员勇挑重担,开展了攸茶单倍型解析基因组组装研究。研究成果发表于《Scientific Data》,为油茶研究带来新曙光。
研究人员主要运用了 PacBio HiFi、Hi-C 和 Illumina 测序技术。选取国家油茶种质资源库中经鉴定为四倍体的百年攸茶古树,采集健康幼叶样本,提取基因组 DNA 进行多种测序;同时对不同组织进行转录组测序。通过复杂的生物信息学分析流程,成功完成攸茶基因组组装、注释及相关分析。
基因组组装与特征分析
研究人员基于 k-mer 分析估计攸茶基因组大小约 3.092 Gb,杂合率 2.28% 。利用 Hi-C 整合组装,结合多种工具去除冗余、构建伪染色体结构并校正错误,最终获得四个单倍型的染色体水平组装结果。其基因组连续性高,contig N50分别为 44.46 Mb 和 41.40 Mb ,四个单倍型长度在 2946.45 Mb - 3041.66 Mb 之间,覆盖超过 95% 基于 K-mer 估计的基因组大小。
重复序列注释
采用从头预测和基于同源性的方法,研究人员发现攸茶基因组中重复序列占比超 82% 。其中长末端重复反转录转座子(LTR - RTs)占主导,在各单倍型基因组中占比 69.31% - 70.81% ,DNA 转座子约占 10% 。大量重复序列,特别是 LTR - RTs 的增殖,可能是攸茶 “基因组肥胖” 的原因。
基因预测与功能注释
研究人员综合转录组、从头预测和同源性分析策略预测基因结构。对多个组织转录组测序,经复杂流程处理数据预测蛋白编码基因。再经人工校正,四个单倍型分别注释到 51336 - 52631 个蛋白编码基因,注释完整性超 96% 。通过与多个数据库比对,94% 以上蛋白编码基因获得功能注释,还完成了非编码 RNA 注释。
单倍型聚类分析
基于 LTR_retriever 结果对 120 条染色体聚类,构建相似性矩阵。研究发现,四倍体攸茶和油茶(Camellia oleifera)单倍型聚类不同,表明二者在基因组水平属于不同物种。攸茶染色体可分为四个单倍型组,暗示其四倍体基因组可能源于两次不同杂交事件。
数据记录与技术验证
研究人员将 PacBio HiFi 长读长数据、Hi-C 相互作用数据和多组织 RNA - seq 数据集提交至 NCBI 序列读数存档(SRA)数据库;最终染色体组装结果提交至 ENA 和国家基因组数据中心,相关成果也存于 figshare。通过多种评估方法验证基因组组装质量,结果显示其完整性和连续性良好,各项评估指标优异。
综上,该研究成功构建了四倍体攸茶染色体水平单倍型解析基因组,为深入理解多倍体对攸茶重要表型性状的影响提供依据,也为后续遗传研究和育种计划奠定基础。在油茶研究的漫漫长路中,这项研究如同点亮的明灯,指引着科研人员进一步探索油茶的奥秘,推动油茶产业发展,助力解决全球粮食和生态相关问题,具有不可忽视的重要意义。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》