首次解析西伯利亚豆芫菁染色体水平基因组,为生命科学研究开辟新方向

【字体: 时间:2025年02月16日 来源:Scientific Data 5.8

编辑推荐:

  为解决 Mylabris sibirica 基因组资源匮乏,阻碍基因功能、医学应用及生态适应研究的问题,中国农科院油料所研究人员开展其染色体水平基因组组装研究。成功获得高质量基因组,为多领域研究提供资源,强烈推荐阅读。

  
中国农业科学院油料作物研究所(Key Laboratory of Agricultural Genetically Modified Organisms Traceability, Ministry of Agriculture and Rural Affairs, Oil Crops Research Institute of Chinese Academy of Agricultural Science/Supervision and Test Center (Wuhan) for Plant Ecological Environment Safety, Ministry of Agriculture and Rural Affairs)的研究人员 Chenhui Shen、Guofeng Yang 等人在《Scientific Data》期刊上发表了题为 “A chromosome-level genome assembly of Mylabris sibirica Fischer von Waldheim, 1823 (Coleoptera, Meloidae)” 的论文。这篇论文在昆虫基因组学、农业害虫防治以及生物医药研究等领域有着重要意义,为相关研究提供了关键的基因组数据支持,有助于推动这些领域的进一步发展。

研究背景


甘蓝型油菜(Brassica napus)是全球最重要的油料作物之一,其产出的菜籽油是极富营养的食用植物油。然而,虫害始终是影响油菜产量的重大难题,黄曲条跳甲(Phyllotreta striolata)、小菜蛾(Plutella xylostella)以及西伯利亚豆芫菁(Mylabris sibirica)等害虫大肆侵害油菜,造成严重的经济损失。当前,化学杀虫剂是防治害虫的主要手段,但过度和不当使用,不仅使害虫产生抗药性,还对环境造成污染,对蜜蜂、寄生虫和捕食性昆虫等有益生物产生负面影响。

探索基于 RNA 干扰(RNAi)的创新害虫防治方法极具前景。目前,小菜蛾和黄曲条跳甲的基因组已被公布,而西伯利亚豆芫菁的基因组却一直未被报道,这严重限制了针对该害虫的新技术研发。

西伯利亚豆芫菁属于鞘翅目(Coleoptera)芫菁科(Meloidae),是一种超变态害虫,成虫主要取食甘蓝型油菜的花朵,给油菜生产带来巨大威胁。此前,对西伯利亚豆芫菁的研究多集中在分类学、系统发育学和医学价值方面,在基因功能研究领域,除了一项筛选最佳参考基因的研究外,几乎是空白。因此,无论是为了深入探究其发育、繁殖和生理的分子机制,还是筛选新型靶基因,构建高质量的西伯利亚豆芫菁基因组都迫在眉睫。此外,西伯利亚豆芫菁产生的斑蝥素(Cantharidin)在医学上意义非凡,对肝癌、胃癌、食道癌、乳腺癌和宫颈癌等多种癌症都有显著治疗效果,同时对某些双翅目昆虫有吸引作用,还是一种昆虫取食 deterrent 。获取其高质量基因组,对医学治疗、开发拒食剂和引诱剂都有重要参考价值。

研究方法


  1. 样本采集与测序:2023 年 7 月,研究人员在中国青海省海东市的甘蓝型油菜上采集了西伯利亚豆芫菁成虫。将这些成虫在昆虫饲养室中,置于适宜条件(25 ± 2 °C、16 小时光照∶8 小时黑暗的光周期、50 - 60% 相对湿度)下饲养一周。之后,选取两只去除肠道的雄性成虫组织,用于进行 PacBio、Hi-C、基因组 survey 和转录组测序。按照相关试剂盒的操作方法,分别使用 FastPure? Blood/Cell/Tissue/Bacteria DNA Isolation Mini Kit 和 TRIzol 试剂提取样本中的基因组 DNA 和 RNA,用 Qubit 测定浓度,确保最终 DNA 或 RNA 的量不少于 1000 ng。利用 MegaruptorTM 设备将高分子量(HMW)的 gDNA 剪切成 15 kb 片段,并用 AMPurePB Beads 进行富集。转录组测序则使用 TruSeq DNA PCR-free kit 构建短文库,插入片段大小为 350 bp,测序读长为 150 bp 双端测序,通过 Illumina NovaSeq6000 平台进行测序。Hi-C 实验依据已发表的方案进行,包括 DNA 交联、用限制性内切酶 MboI 消化染色质、末端修复和 DNA 纯化等步骤。PacBio HiFi 模式则借助 Pacific Biosciences 公司的 SMRT(pbccs v6.4.0)测序技术生成高质量的 Pacbio HiFi reads。所有文库均由北京贝瑞基因(Berry Genomics)构建和测序,最终获得了总计 80.92 Gb 的 clean data ,其中包含 15.44 Gb(112×)的 PacBio 数据、26.64 Gb 的 Illumina 数据(201×)、20.89 Gb 的 Hi-C 数据(151×)以及 17.95 Gb 的转录组数据。
  2. 基因组 survey:运用 BBTools v38.82 对原始 Illumina 数据进行质量控制,去除重复读段。通过 “bbduk.sh” 工具严格把控质量,去除质量分数低于 20(>Q20)的碱基位置,过滤掉长度短于 15 bp 的序列,去除长度超过 10 bp 的 polymer A/G/C 尾巴,并校正重叠的双端读段。随后,利用 GenomeScope v2.0.1 进行 k-mer 分析,将最大 k-mer 深度阈值设为 1000,使用 “khist.sh”(BBTools)以 21 为 k-mer 长度评估 k-mer 频率。结果显示,基因组组装大小为 180.22 Mb,杂合度为 1.21%,重复序列比例约为 29.52%。
  3. 基因组组装:利用 Hifiasm v0.16.1 对 PacBio HiFi 长读段进行初步组装,再通过 Purge_Dups v1.2.5 去除冗余区域,将识别为单倍型的重叠群(contig)截断值设为 70%。运用 Minimap2 v2.17 对读段映射进行冗余去除,Juicer v1.6.2 用于 Hi-C 读段与组装结果的比对,接着 3D-DNA v180922 将重叠群锚定到染色体上,最后使用 Juicebox v1.11.08 检查并纠正错误,保证准确性。借助 MMseqs.2 v11 依据 NCBI 核苷酸和 UniVec 数据库(序列同一性为 0.8)检测可能的污染物,再用 blastn(BLAST + v2.11.0)针对 UniVec 数据库进一步评估载体污染物,对于在上述数据库中比对率超过 90% 的序列,判定其可能含有污染物,并通过 NCBI 核苷酸数据库的在线 BLASTN 分析重新检查比对率超过 80% 的序列,从而去除组装支架中可能存在的细菌污染。根据前人研究,该物种的性别决定机制为 。使用原始 HiFi 数据对最终组装结果进行重新映射,利用 MiniMap2(参数 “-ax map-hifi”)确定每条染色体的长度,以此识别常染色体和性染色体,再通过 SAMtools v1.9(参数 “flagstat”)根据染色体长度划分原始数据计算染色体覆盖度,X 染色体的覆盖度约为其他染色体的一半(18.48),由此区分出 X 染色体。最终,西伯利亚豆芫菁的基因组组装大小为 138.45 Mb,包含 21 个支架(scaffold)和 33 个重叠群(contig),支架和重叠群的 N50 大小分别为 13.84 Mb 和 11.35 Mb,其中 22 个重叠群(99.85%,138.25 Mb)被锚定到 10 条假染色体上,长度范围在 11.35 - 13.84 Mb 之间。
  4. 基因组注释:运用 RepeatModeler v2.0.4(参数 “-LTRStruct”)构建基因组的从头重复文库,结合 Dfam 3.5 和 RepBase-20181026 数据库创建自定义文库,再用 RepeatMasker v4.1.4 识别重复序列,结果表明西伯利亚豆芫菁基因组中 35.46%(49.10 Mb)为重复读段,转座元件主要包括 DNA 元件(4.21%)、LTR 元件(1.60%)和 LINE 元件(1.07%)。使用 Infernal v1.1.4 针对 Rfam v14.10 数据库检测非编码 RNA(ncRNA),tRNA 则通过 tRNAscan-SE v2.0.9 进行识别,共发现 673 个 ncRNA,涵盖 1 个长链非编码 RNA、2 个核酶、34 个小核 RNA、57 个微小 RNA、256 个 tRNA 和 187 个核糖体 RNA。利用 MAKER v3.01.03 整合从头预测、同源搜索和转录组数据三种策略进行基因注释。从头预测时,采用 BRAKER v2.1.6(参数 “-etpmode” 和 “-softmasking”)和 GeMoMa v1.7.1。使用 HISAT2 v2.2.0(参数 “-q” 和 “-x”)生成转录组比对。BRAKER 结合 Augustus v3.3.4 和 GeneMark-ES/ET/EP v4.68_lic(均为默认参数)的结果,基于 RNA-seq 比对和从 OrthoDB10 vl 数据库挖掘的参考蛋白自动训练预测模型。GeMoMa 依据参数 “GeMoMa.c = 0.4 GeMoMa.p = 10^{n}” ,利用来自光肩星天牛(Anoplophora glabripennis)、山松大小蠹(Dendroctonus ponderosae)、赤拟谷盗(Tribolium castaneum)、黑腹果蝇(Drosophila melanogaster)和家蚕(Bombyx mori)五个物种的蛋白质序列,通过蛋白质同源性和内含子保守位置预测基因,同时这些蛋白质序列也作为 MAKER 中蛋白质同源性的证据。最终,在西伯利亚豆芫菁基因组中注释出 11,687 个蛋白质编码基因,平均长度为 5,959.6 bp。每个基因的外显子、内含子和编码序列(CDS)的平均数量分别为 5.9、4.8 和 5.5,平均长度分别为 360.2 bp、881.0 bp 和 306.9 bp。使用 Diamond v2.0.11.151(参数 “–more -sensitive -e 1e-5”)针对 UniProtKB 数据库注释基因功能,同时运用 eggNOG-mapper v2.1.5 和 InterProScan 5.53 - 87.0 进行基因本体(GO)、酶代码(EC)、京都基因与基因组百科全书(KEGG)、直系同源群(COG)、KEGG 通路注释以及蛋白质结构域的注释,InterProScan 分析涵盖 Pfam、SMARTS、superfamily、Gene3D 和 CDD(Conserved Domain Database)五个数据库。综合 eggNOG 和 InterProScan 的注释结果,共识别出具有 9,253 个 GO 术语、4,403 条 KEGG 通路、2,462 个酶代码、4,403 条 Reactome 通路和 10,269 个 COG 类别的基因。

研究结果


  1. 测序数据:研究人员获取了大量高质量的测序数据(具体数据见表 1),为后续的基因组分析奠定了坚实基础。这些数据涵盖了不同测序技术产生的结果,相互补充,保证了基因组信息的完整性和准确性。
  2. 基因组特征:西伯利亚豆芫菁的基因组大小为 138.45 Mb(见表 3),GC 含量为 31.15%。通过 BUSCO 分析,其基因组完整性高达 100%,其中包含 99.4% 的单拷贝 BUSCOs 和 0.6% 的重复 BUSCOs,表明该基因组组装质量极高。从基因组热图(图 2)和 Circos 图(图 3)中,可以直观地观察到基因组的结构特征和各成分的分布情况,为深入研究基因组的组织和功能提供了可视化依据。
  3. 基因和重复元件注释:在基因组中成功注释出 11,687 个蛋白质编码基因(见表 4),同时发现 35.46%(49.10 Mb)的序列为重复元件。转座元件在基因组中占有一定比例,包括 DNA 转座子、SINEs、LINEs、LTRs 等(见表 4),这些重复元件在基因组的进化和功能调控中可能发挥着重要作用。此外,还注释出 673 个非编码 RNA,它们在基因表达调控等生物学过程中具有潜在功能。
  4. 技术验证:采用两种独立的方法对基因组组装质量进行评估。BUSCO v5.0.4 分析显示,基因组的完整 BUSCOs 比例达到 100.0% ,体现了基因组的高完整性。Merqury v1.3 评估得出 k-mer 完整性值为 94.2%,QV 分数为 59.336,表明组装序列错误较少。Illumina、PacBio 和 RNA-seq reads 的映射率分别达到 95.23%、95.19% 和 97.79%(见表 3),进一步证明了基因组组装的准确性和高质量。

研究结论与讨论


本研究首次成功构建了西伯利亚豆芫菁的染色体水平基因组组装,为该物种的研究开辟了新的篇章。通过对其基因组的深入分析,获得了大量关于基因组结构、基因组成和功能注释的信息。高质量的基因组组装为探究西伯利亚豆芫菁的基因功能提供了关键的基础数据,有助于科研人员深入了解其生长发育、繁殖和生理代谢的分子机制,从而为开发针对该害虫的精准防治策略提供理论依据。例如,基于对其基因功能的研究,可以筛选出关键的靶基因,利用 RNAi 技术实现对害虫的高效控制,减少化学杀虫剂的使用,降低对环境的污染。

在医学领域,西伯利亚豆芫菁产生的斑蝥素具有重要的药用价值。基因组数据能够帮助研究人员深入研究斑蝥素的合成途径和调控机制,为开发新型抗癌药物提供潜在的靶点和理论支持。此外,对于了解斑蝥素对其他昆虫的吸引或拒食作用机制也具有重要意义,有助于开发更环保、高效的昆虫引诱剂和拒食剂,应用于农业害虫防治和昆虫行为调控领域。

然而,目前的研究只是一个开端。虽然获得了高质量的基因组,但对于基因组中许多基因的具体功能,尤其是那些与害虫防治和药用价值密切相关的基因,仍有待进一步深入研究。未来的研究可以围绕这些基因展开功能验证实验,结合基因编辑技术等手段,深入探究它们在生物学过程中的作用机制。同时,利用该基因组数据,开展与其他昆虫基因组的比较研究,有助于揭示昆虫的进化关系和适应机制,为整个昆虫学领域的发展提供新的视角和思路。总之,本研究成果为西伯利亚豆芫菁的多方面研究奠定了坚实基础,在农业、医学和生物学等多个领域都具有广阔的应用前景和重要的研究价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号