编辑推荐:
研究人员为解决短面鼹参考基因组限制问题,组装其基因组,为后续研究提供基础。
在广袤的自然界中,有一种神秘的小动物 —— 短面鼹(Scaptochirus moschatus),它隶属于鼹科(Talpidae),是中国特有的物种,主要分布在河北、山东、内蒙古等多个地区。短面鼹长相独特,身材矮胖,嘴巴短而尖锐,小小的眼睛藏在毛发之中,爪子扁平、强壮又锋利,全身覆盖着棕色且带有金属光泽的细毛 。它一生都生活在地下,听力和嗅觉极为灵敏,在地下爬行速度很快,很少爬出地面,偏爱生活在土壤干燥疏松、土层深厚的沙质区域。
从科学研究的角度来看,短面鼹的广泛生态型和独特形态特征,使它成为研究哺乳动物适应性进化的绝佳模型。然而,此前对短面鼹的研究却困难重重。以往关于鼹类的研究主要集中在形态学、分类学、核型分析、系统发育学和肠道微生物学等方面,但后续的进化生物学和分子生态学研究,却因缺乏短面鼹的基因组信息而受到严重制约。就好比建造高楼大厦却没有坚实的地基,研究人员在探索短面鼹更深层次的生物学奥秘时,因为没有基因组这个 “导航图”,常常迷失方向。
为了打破这一困境,曲阜师范大学生命科学学院的研究人员 Lei Chen、Zenghao Gao、Chao Xue 等人展开了深入研究。他们的研究成果发表在《Scientific Data》上,为我们打开了了解短面鼹基因组奥秘的大门,也为后续相关研究提供了坚实的基础 。
在这项研究中,研究人员采用了多种关键技术方法。首先是样本采集,2024 年 5 月 13 日,他们从山东聊城采集了一只雄性短面鼹,按照相关伦理规范,在其安乐死后,采集了心脏、肝脏、脾脏等多种组织样本,并储存于 -80°C 用于后续实验 。接着,运用 Illumina、PacBio HiFi 和 Hi-C 测序技术对样本进行基因组测序。其中,Illumina 测序用于初步评估基因组大小,PacBio HiFi 测序获得长读长数据用于基因组组装,Hi-C 测序则辅助将组装的基因组锚定到染色体水平。此外,研究人员还进行了转录组测序,为基因结构注释提供数据支持。在数据处理和分析阶段,运用了多种生物信息学软件,如通过 jellyfish 和 GenomeScope 进行 k-mer 分析估计基因组大小,利用 Hifiasm 软件进行基因组组装,使用 BUSCO 评估基因组完整性等。
下面让我们详细了解一下研究结果:
- 基因组调查与组装:通过对 Illumina 测序数据进行 k-mer 分析,研究人员估算出短面鼹的基因组大小约为 2.17 Gb,杂合率为 0.34%。利用 PacBio 测序得到的长读长数据,经过处理后使用 Hifiasm 软件进行组装,获得了 2.25 Gb 的基因组 contigs,N50 达到 67.66 Mb,GC 含量为 42.87%。经 BUSCO 评估,99.6% 的基因组被鉴定为完整的单拷贝直系同源基因集(BUSCOs),其中 90.7% 为完整单拷贝 BUSCOs,8.9% 为完整重复 BUSCOs,这表明组装的基因组具有较高的准确性和完整性。
- 染色体水平基因组组装:将 Hifiasm 组装得到的 contig 基因组与 Hi-C 数据相结合,使用 ALLHiC 软件进行染色体聚类、定向和排序,再通过 Juicebox 软件检查和手动校正,最终获得了染色体水平的基因组组装结果。共得到 2.25 Gb 的 scaffolds,N50 长度为 110.51 Mb,并且将 2.13 Gb 的基因组数据成功锚定到 24 条染色体上,锚定率达到 94.33%。值得注意的是,第 24 号染色体(Chr 24)可能包含 X 和 Y 染色体,但由于缺乏相关物种性染色体注释结果的支持,这一推断还需进一步验证。
- 重复序列和非编码 RNA 注释:对基因组中的重复序列进行注释,发现短面鼹基因组中存在 0.88 Gb 的重复序列,约占基因组的 39.41%。其中,长散在核元件(LINEs)占 26.45%,短散在核元件(SINEs)占 0.44%,长末端重复序列(LTRs)占 8.19%,DNA 转座子元件占 3.90% 。同时,对非编码 RNA(ncRNAs)进行注释,共鉴定出 89,096 个 rRNAs、5,958 个 tRNAs、3,386 个 snRNAs 和 4,915 个 miRNAs。
- 基因结构和功能预测:运用多种软件进行基因结构的从头注释(De novo annotation)和同源编码蛋白预测,再结合转录组数据,使用 EVidenceModeler(EVM)软件整合得到非冗余且更完整的基因集。最终预测出短面鼹基因组中存在 21,139 个蛋白质编码基因,其中 94.6% 的基因具有功能注释。这些基因平均长度为 30.01 Kb,每个基因平均有 8.58 个外显子,外显子平均长度为 0.17 Kb,内含子平均长度为 3.76 Kb 。
综上所述,研究人员成功组装了短面鼹的染色体水平基因组,为深入研究短面鼹的适应性进化提供了关键的遗传信息。这一成果不仅有助于我们理解短面鼹独特生物学特征的遗传基础,也为其他哺乳动物适应性进化研究提供了重要参考。不过,目前关于短面鼹性染色体的推断还需进一步验证,未来的研究可以围绕这一问题展开更深入的探索,相信随着研究的不断深入,我们将从短面鼹的基因组中解锁更多的生物学奥秘。