首次解析潮间带 Lucinid 蛤蜊 Indoaustriella scarlatoi 染色体水平基因组,开启化学共生双壳贝类研究新篇章

【字体: 时间:2025年02月17日 来源:Scientific Data 5.8

编辑推荐:

  为解决 Lucinid 蛤蜊进化及生态研究缺乏基因组数据的问题,中国科学院海洋研究所研究人员开展 Indoaustriella scarlatoi 基因组组装研究,获高质量基因组。该成果对深入探究化学共生双壳贝类意义重大,推荐科研人员阅读。

  
中国科学院海洋研究所(Center of Deep-sea Research, Institute of Oceanology, Chinese Academy of Sciences)的研究人员 Yang Guo、Zhaoshan Zhong、Nannan Zhang、Minxiao Wang、Chaolun Li 在《Scientific Data》期刊上发表了题为 “Chromosome-level genome assembly of the intertidal lucinid clam Indoaustriella scarlatoi” 的论文。这篇论文在海洋生物进化和生态研究领域意义重大,它为深入探索化学共生双壳贝类的进化历程与生态适应机制提供了关键的基因组数据支持,有助于科学家们更全面地理解海洋生态系统的奥秘,对维护海洋生态平衡和生物多样性保护也具有重要的参考价值。

摘要解读


论文成功完成了潮间带 Lucinid 蛤蜊(Indoaustriella scarlatoi)染色体水平的基因组组装。研究人员综合运用短读长、长读长以及 Hi-C 测序技术,组装出了大小为 1.58 Gb 的基因组。这个基因组包含 690 个重叠群(contig),其中 contig N50 长度达到 9.00 Mb ,并且成功锚定到了 17 条染色体上。通过 BUSCO 分析评估,该基因组的完整性高达 95.4%。转座元件(Transposable elements,在基因组中能移动位置的 DNA 序列元件)占基因组的 56.02%,其中长末端重复反转录转座子(Long terminal repeat retrotransposons,LTR)最为丰富,占比 42.66%。研究还鉴定出 34,469 个蛋白质编码基因,这些基因中 74.43% 都获得了功能注释。这一高质量的基因组组装成果,为后续化学共生双壳贝类在进化和生态方面的研究提供了宝贵资源。

研究背景


Lucinidae 科(双壳纲:Lucinida)可是化学共生无脊椎动物中物种最为丰富的家族。这个家族里所有已知的双壳贝类物种,都和化学合成的 γ- 变形菌(Gammaproteobacteria)建立起了共生关系。它们的分布范围极广,从北纬 70° 到南纬 55° 的海洋生态系统中都有它们的身影,像潮间带、浅水区域以及深海沉积物里都能发现 Lucinid 蛤蜊的踪迹。

以前有不少研究探索了深海双壳贝类向化学共生的进化历程,可沿海双壳贝类的情况却不太一样。沿海生态系统中光合作用产生的物质比深海栖息地要丰富得多,所以沿海双壳贝类可能有着独特的适应方式。但到目前为止,沿海双壳贝类对化学共生的具体进化适应机制,在很大程度上还是个谜。

而且,Lucinidae 科和 Thyasiridae 科(Lucinida)长期以来都被认为关系密切,因为它们有着相似的形态特征。不过,基于 rRNA 基因构建的系统发育树显示,这两个科各自都有着单系性的地位。对 Thyasiridae 科和 Lucinidae 科物种展开基因组研究,能进一步帮助我们理解这些进化关系和适应机制方面的问题。

Lucinid 蛤蜊在沿海生态系统中发挥着至关重要的作用。大规模基因组研究发现,沿海 Lucinid 蛤蜊的共生体主要属于 Ca. Thiodiazotropha 属,这些共生体普遍具备硫氧化和固碳的能力,这使得 Lucinid 蛤蜊共生体(holobiont,宿主及其共生微生物的集合体 )能够有效地清除沉积物中的硫化物。不管是在中型实验生态系统,还是在野外实验中,都能明显看到 Lucinid 蛤蜊的存在显著降低了沉积物中硫化物的浓度。这一过程对于维持沿海植物的健康生长意义非凡,因为高浓度的硫化氢会严重影响海草和红树林根系的发育。所以说,Lucinid 蛤蜊及其细菌共生体在沿海生态系统中有着极其重要的生态意义。

然而,由于缺乏基因组数据,Lucinid 蛤蜊在系统发育关系、进化适应以及生态功能背后的调控机制等方面的研究都受到了极大的阻碍。正是在这样的背景下,研究人员开展了此次研究,致力于组装出 Indoaustriella scarlatoi 的染色体水平基因组。

研究方法


  1. 采样与测序:研究人员从中国文昌红树林周边的沉积物(19°24′44″ N, 110°44′50″ E)中采集了 Indoaustriella scarlatoi 个体样本。样本采集后,迅速用 RNAlater(赛默飞世尔科技公司产品)进行固定,然后保存在 - 80°C 的环境中。

随后,研究人员选取其中一个个体的肌肉组织,用于提取总 DNA,以便进行全基因组测序(Whole genome sequencing,WGS)和 PacBio HiFi 测序。提取 DNA 时使用的是 QIAamp DNA Mini Kit(Qiagen 公司产品)。在进行 WGS 时,先用 Covaris E220 将 DNA 片段化,再利用 AMPure XP 磁珠(贝克曼公司产品)筛选出长度约 200 bp 的 DNA 片段。这些片段经过 8 个 PCR 循环扩增后,在 DNBSEQ 测序平台(华大基因)上以双端 150 bp 的布局进行测序。

长读长测序则是在 PacBio Sequel II 系统(PacBio 公司)上完成的。在构建文库前,先通过 Qubit(赛默飞世尔科技公司产品)和脉冲场电泳系统(伯乐公司产品)对 DNA 进行检测。接着,利用 g-TUBE(Covaris 公司)进行剪切、末端修复,并通过 BluePippin(Sage Science 公司)进行大小筛选,构建出 15-kb 的 PacBio 文库。最后,通过环形一致测序(Circular consensus sequencing,CCS)模式对两个 SMART 细胞进行测序。

构建 Hi-C 文库时,先将从 Indoaustriella scarlatoi 肌肉组织中解离出来的细胞,用 1% 的甲醛和 0.2 M 的甘氨酸进行交联。固定后的粉末再重悬于细胞核分离缓冲液中,在 62°C 条件下用 0.5% 的 SDS 孵育 10 分钟,然后通过离心收集细胞核。细胞核中的 DNA 用 MboI(NEB 公司产品)进行酶切,酶切产生的粘性末端经过填充和生物素化处理后,再用 T4 DNA 连接酶(NEB 公司产品)进行连接。连接产物纯化后进行片段化处理,利用 Dynabeads MyOne Streptavidin T1(英潍捷基公司产品)捕获含有生物素的片段。捕获的 DNA 经过扩增后,在 NovaSeq 6000(Illumina 公司)平台上以双端 150 bp 的布局进行测序。

为了更好地注释基因组组装结果,研究人员还对整个蛤蜊的组织进行了 RNA 测序(RNA-seq)。先用 TRIzol(英潍捷基公司产品)提取总 RNA,再使用 HiscriptII(南京诺唯赞生物科技股份有限公司产品)将其反转录成 cDNA。cDNA 片段在 DNBSEQ 平台上进行测序,最终获得了 7.32 Gb 的 150 bp 双端数据。

  1. 基因组组装与 Hi-C 脚手架搭建:研究人员使用 Jellyfish v2.2.6 软件,以 17-mer 的 k-mer 对 WGS 数据进行基因组调查。结果显示,Indoaustriella scarlatoi 的基因组大小预估为 1.48 Gb,杂合度为 1.69%。接着,利用 hifiasm v0.16.1 软件(参数设置为 - k 45 -r 2 -a 2 -m 2,000,000 -p 20,000 -l 0)对 PacBio 数据进行基因组组装。组装完成后,使用 minimap2 v2.14 软件将 PacBio 长读长重新比对到组装结果上,再通过 Purge_Dups v1.2.3 软件(使用默认参数)去除组装产物中的重复序列。利用 Kraken2 软件识别潜在的污染重叠群,将被鉴定为细菌的重叠群去除。

之后,使用 BUSCO v5.2.2 软件,基于后生动物 odb10 数据集对去污染后的重叠群水平组装结果进行评估。对 Hi-C 数据的质量控制则借助 HiC-Pro v3.2 软件完成。经过质量控制的组装重叠群,利用 3D-DNA 软件进行脚手架搭建。组装好的染色体在 Juicebox v1.9 软件中进行可视化展示和调整,最终 99.41% 的重叠群成功锚定到了 17 条染色体上。最终的基因组组装大小为 1.58 Gb,脚手架 N50 长度达到 94.81 Mb。

  1. 重复序列与基因注释:研究人员运用 Tandem Repeats Finder v4.0.7 软件,将 MaxPeriod 设置为 2000,对串联重复序列进行注释。对于转座元件(TEs)的鉴定,综合采用了基于同源性的预测方法和从头预测方法。从头预测时,使用 LTR_Finder v1.0.6 软件(参数设置为 “-C”)和 RepeatModeler v1.0.8 软件(使用默认参数);基于同源性的搜索则运用 RepeatMasker v4.0.6 软件,在 Repbase v21.01 数据库中进行搜索(参数设置为 “-nolow -norna -no_is”),同时结合从头预测的结果进行综合分析。

在注释蛋白质编码基因时,研究人员整合了从头预测、基于同源性预测以及基因表达证据这三种方法。从头预测基因使用 Augustus v3.1 软件;利用 Blast v2.2.26 软件,将 10 种软体动物(Archivesica marissinica、Argopecten concentricus、Conchocele bisecta、Crassostrea gigas、Gigantidas platifrons、Lutraria rhynchaena、Mactra quadrangularis、Margaritifera margaritifera、Modiolus philippinarum、Pecten maximus)的基因集比对到 Indoaustriella scarlatoi 的基因组上,再通过 GenBlastA 软件将比对结果关联到候选基因区域。使用 GeneWise v2.2.0 软件,根据候选基因及其两侧 2-kb 的序列确定基因模型。将 RNA-seq 数据通过 HISAT v2.1.0 软件比对到基因组组装结果上,然后借助 Stringtie v1.3.4 软件和 Transdecoder v5.7.1 软件(参数设置为 “--complete_orfs_only”),利用转录本证据生成基因注释。最后,运用 EVM v1.1.1 软件整合这三种方法的结果(参数设置为 “--segmentSize 5000000 --overlapSize 200000”,整合权重设置为 “AUGUSTUS 1, GeneWise 3, transdecoder 10”)。所有注释的蛋白质编码基因都会在 Swiss-Prot v201709、KEGG v87.0、InterPro v55.0 和 TrEMBL v201709 等数据库中进行搜索比对。使用 BUSCO v5.2.2 软件评估基因集的完整性。

对于非编码 RNA(ncRNA),包括转运 RNA(tRNA)、核糖体 RNA(rRNA)、微小 RNA(miRNA)和小核 RNA(snRNA)的预测,研究人员也采用了不同的方法。使用 tRNAscan-SE-1.3.1 软件,采用默认参数预测 tRNA;通过 BLAST 软件(参数设置为 “-e 1e-5”),将无脊椎动物的 rRNA 序列与基因组组装结果进行比对来预测 rRNA;对于 miRNA 和 snRNA 的注释,先使用 BLAST 软件(参数设置为 “-e 1”)将基因组组装结果与 Rfam 数据库(v14.1)进行比对,找到候选比对区域,再利用 INFERNAL v1.1.1 软件,采用默认参数进行注释。

研究结果


  1. 测序数据统计:研究人员获得了全面的测序数据(详细统计信息见表 1)。WGS 测序共产生 1179.61 M 条 reads,碱基总量达 176.94 Gb,测序深度为 111.99x,测序质量 Q20 达到 97.80%,Q30 达到 92.63%;PacBio 测序产生 3.50 M 条 reads,碱基总量 65.08 Gb,测序深度 41.19x,N50 长度为 17.7 kb,reads 质量中位数为 Q29;Hi-C 测序产生 1981.69 M 条 reads,碱基总量 297.25 Gb,测序深度 188.13x,有效 reads 率为 19.36%;RNA-seq 测序产生 48.82 M 条 reads,碱基总量 7.32 Gb,Q30 达到 95.64%。这些丰富的数据为后续精确的基因组分析奠定了坚实基础。
  2. 基因组组装统计:最终组装得到的 Indoaustriella scarlatoi 基因组大小为 1,580,604,568 bp(见表 2)。该基因组包含 690 个 contig,contig N50 长度为 8,997,515 bp,contig N90 长度为 2,188,720 bp。经过 Hi-C 脚手架搭建后,99.41% 的 contig 成功锚定到 17 条染色体上,未放置的脚手架有 208 个。脚手架 N50 长度达到 94,813,358 bp,基因组的 GC 含量为 37.53%。通过 BUSCO 分析评估,基因组完整性达到 95.4%(其中完整单拷贝基因占 92.3%,重复基因占 3.1%),Compleasm 评估结果显示完整性为 97.7%,基因集 BUSCO 评估完整性为 95.1%,OMArk 评估基因集完整性为 90.69%。这些数据充分表明,此次获得的基因组组装质量较高,能够满足后续深入研究的需求。
  3. Hi-C 脚手架搭建详情:对 Hi-C 脚手架搭建结果的进一步分析发现(见表 3),17 条染色体的总长度为 1,571,332,208 bp,占基因组的 99.41%,而未放置的脚手架长度为 9,272,360 bp,仅占基因组的 0.59%。详细来看,每条染色体的长度和占比各不相同,例如 Chr1 长度为 146,589,590 bp,占基因组的 9.27%;Chr2 长度为 124,475,635 bp,占比 7.88% 等。通过 Hi-C 技术,研究人员成功将大量的 contig 准确地定位到染色体上,为后续研究基因在染色体上的分布和相互作用提供了有力支持。
  4. 转座元件注释结果:转座元件在 Indoaustriella scarlatoi 基因组中占据了相当大的比例,达到 56.02%(见表 4)。其中,ClassI - Retrotransposon(I 类反转录转座子)数量为 1,632,680 个,长度为 799,565,220 bp,占基因组的 50.59%;ClassI - LTR(I 类长末端重复反转录转座子)数量为 1,305,480 个,长度为 674,211,535 bp,占比 42.66%,是最为丰富的转座元件类型;ClassI - LINE(I 类长散在核元件)数量为 316,820 个,长度为 124,776,826 bp,占比 7.89%;ClassI - SINE(I 类短散在核元件)数量较少,仅 10,264 个,长度为 576,859 bp,占比 0.04%;ClassII - DNA transposon(II 类 DNA 转座子)数量为 259,724 个,长度为 81,904,905 bp,占比 5.18%;还有少量类型未知的转座元件,数量为 3632 个,长度为 3,932,552 bp,占比 0.25%。转座元件的大量存在可能对基因组的结构、进化和功能产生重要影响,是后续研究的重要方向之一。
  5. 基因功能注释情况:研究人员在 Indoaustriella scarlatoi 基因组中预测到 34,469 个蛋白质编码基因(见表 5)。在功能注释方面,通过与多个公共数据库比对,发现这些基因中有 74.43% 能够获得功能注释。其中,在 Swiss-Prot 数据库中注释到的基因有 17,879 个,占比 51.87%;在 KEGG 数据库中注释到 19,832 个,占比 57.54%;在 TrEMBL 数据库中注释到 24,907 个,占比 72.26%;在 InterPro 数据库中注释到 18,166 个,占比 52.70%;在 GO 数据库中注释到 13,220 个,占比 38.35%。这些功能注释信息为深入了解基因的生物学功能,以及它们在蛤蜊生长、发育、代谢和适应环境等过程中的作用提供了重要线索。
  6. ncRNA 注释结果:对 ncRNA 的注释结果显示(见表 6),共预测到 tRNA 13,337 个,平均长度为 73.2 bp,总长度为 976,310 bp,占基因组的 0.0618%;rRNA 665 个,平均长度为 165.35 bp,总长度为 109,961 bp,占基因组的 0.007%,其中 18S rRNA 有 181 个,28S rRNA 有 39 个,5.8S rRNA 未检测到,5

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号