编辑推荐:
为解决中国海洋原核生物多样性研究不足的问题,厦门大学的研究人员开展中国海洋表层原核生物多样性研究,构建数据集,揭示其多样性和群落结构。该成果为海洋生态研究提供关键数据,强烈推荐科研人员阅读。
厦门大学(Xiamen University)海洋环境科学国家重点实验室、海洋微生物与生态系统研究所、海洋与地球科学学院的研究人员 Yanting Liu、Jinxin Xu 等人在《Scientific Data》期刊上发表了题为 “A dataset of prokaryotic diversity in the surface layer of the China Seas” 的论文。该论文对于深入了解中国海洋表层原核生物多样性、探究其在不同区域的分布规律以及与环境之间的相互作用具有重要意义,为海洋生态系统研究提供了关键的数据支撑,也为后续海洋生物资源开发、生态保护等领域的研究奠定了基础。
研究概述
这篇论文构建了中国海洋表层原核生物多样性数据集,涵盖渤海、黄海、东海和南海,通过多种样本采集与分析方法,获得大量原核生物 16S rRNA 基因序列数据,分析其多样性、群落结构等,为研究中国海洋原核生物提供基础数据,有助于深入了解其分布规律与生态作用。
研究背景
海洋原核生物在生物地球化学循环中扮演着至关重要的角色。过去几十年间,针对大洋原核生物开展了诸多大规模系统调查,像 Malaspina 2010 Expedition、Tara Oceans Expedition(2009 - 2013)以及 Bio - GEOTRACES 等研究,这些研究让人们对大洋从表层到深层的原核生物群落结构和多样性有了一定认识。
然而,与大洋相比,沿海和近岸区域生产力更高、生态系统更为复杂,原核生物资源丰富且群落独特。但目前人们对该区域原核生物多样性的了解却较为有限。一方面,多数研究仅聚焦特定区域,缺乏大尺度的系统研究;另一方面,不同研究在数据收集和处理方法上存在差异,这进一步阻碍了人们对沿海和近岸区域原核生物多样性的全面认知。
中国拥有广阔的边缘海,包括渤海(BHS)、黄海(YS)、三分之二的东海(ECS)和南海(SCS),跨越温带、亚热带和热带三个气候带,多样的生态环境孕育了丰富的原核生物多样性。自 2010 年代初,中国就开始利用高通量测序技术研究海洋原核生物多样性和分布。在众多研究方法中,16S rRNA 基因扩增子测序因其针对性强、效率高、成本效益好且易于分析,同时数据量较小,对计算和存储需求较低,成为大规模研究原核生物多样性的理想选择。目前,公共数据库中已有大量 16S rRNA 基因序列相关数据,但为了系统研究中国海洋原核生物群落的多样性和分布,构建一个综合全面的数据集迫在眉睫。
研究方法
- 样本采集:研究团队在 2018 - 2023 年间,通过 13 次巡航,从南海、东海、黄海和渤海共采集了 186 个样本。其中南海 102 个,东海 50 个,黄海 23 个,渤海 11 个。采集原核生物样本时,采用了分级过滤的方法。先将 1 升海水通过 20μm 尼龙网过滤,去除大型浮游生物,再将其通过孔径为 0.22μm 的 47mm 直径聚碳酸酯膜过滤。过滤后的膜迅速在液氮中冷冻,并储存在 - 20°C 环境下,等待后续 DNA 提取。
- DNA 提取与 16S rRNA 基因测序:运用酚 - 氯仿法提取原核生物 DNA,该方法在以往研究基础上进行了微调。具体步骤为,将过滤膜剪成小块,放入含有 800μl 裂解缓冲液(400mM NaCl,750mM 蔗糖,20mM EDTA,50mM Tris - HCl,pH 9.0)和 40μl 溶菌酶(20mg/mL)的溶液中,在 37°C 环境下孵育 60 分钟。随后加入 80μL 十二烷基硫酸钠(SDS,1%)和 5μl 蛋白酶 K(10μl/mL),在 55°C 环境下继续孵育 1 小时。孵育后的物质经过三次离心,每次 5 分钟,前两次加入 925μL 酚 - 氯仿 - 异戊醇(25:24:1),最后一次加入 925μL 氯仿 - 异戊醇(24:1)。每次离心后,将水相转移到新的试管中。接着,在含有水相的试管中加入 0.6 倍体积的异丙醇和 0.1 倍体积的醋酸钠(3mol/L),在 - 20°C 环境下孵育过夜。之后在 4°C 环境下,以 12,000×g 的离心力离心 10 分钟,小心去除上清液,避免 DNA 损失。最后,用预冷的 70% 乙醇洗涤 DNA 沉淀,并将其重悬于 60μL Milli - Q 水中。使用 NanoDrop 2000(Thermo Scientific,Wilmington,DE,美国)检测 DNA 的质量和数量。
为研究原核生物多样性,利用通用引物 515 F(5′ - GTGCCAGCMGCCGCGGTAA - 3′)和 907 R(5′ - CCGYCAATTYMTTTRAGTTT - 3′)扩增 16S rRNA 基因的 V4 - V5 区域。PCR 产物经 EZNA? 凝胶提取试剂盒(Omega,美国)纯化后,使用 NEBNext? Ultra? II DNA 文库制备试剂盒(New England Biolabs,美国)构建文库,最终在 Illumina MiSeq PE250 平台(GENWIZ,中国苏州)上进行 16S rRNA 基因测序。
3.
数据收集:研究人员借助 PubMed 和 Google Scholar 搜索引擎,以 “China Seas, Bohai Sea, Yellow Sea, East China Sea, South China Sea and prokaryotic communities” 为关键词进行文献检索。人工筛选并保留符合以下五条标准的研究:一是在中国海洋自然表层水环境采样;二是使用 0.22μm 聚碳酸酯滤膜采集样本;三是扩增 16S rRNA 基因;四是在 Illumina 平台进行二代测序;五是提供样本采集站的地理信息。最终,共有 49 项研究被纳入,包含 1324 个 16S rRNA 基因序列样本。原始测序数据从 NCBI SRA 数据库(
https://www.ncbi.nlm.nih.gov/sra)下载,相关信息从文献中提取。
4.
样本分布:该数据集涵盖了中国海洋大部分区域 594 个采样站的样本,其中渤海 100 个,黄海 259 个,东海 488 个,南海 347 个。样本采集时间上,夏季样本最多,占 60.97%(n = 728),秋季占 19.68%(n = 235),春季占 13.90%(n = 166),冬季最少,仅占 5.44%(n = 65)。详细的巡航和采样点信息可在补充表 2 中查看。
5.
16S rRNA 基因扩增子的生物信息处理:从 1510 个样本中总共获得了 86,631,732 条 16S rRNA 基因序列。运用 QIIME2 对原始序列进行处理,具体流程参考 Caporaso 等人和 Lozupone 等人开发的方法。首先,利用‘qiime cutadapt trim - paired’或‘qiime cutadapt trim - single’命令分别去除双端和单端序列中的引物。引物去除后,对序列进行去噪以完成质量控制,双端序列进一步合并。去噪后,将所有序列和特征表合并,用于聚类和分类学分类。在进行稀疏化处理前,根据分类学分类丢弃属于叶绿体和线粒体的序列。去除序列数量少于 20,000 的样本。最终保留了 1194 个样本和 30,308 个操作分类单元(OTUs),包含 24,136,710 条序列。1194 个样本中共使用了 16 套引物,其中 V3 - V4 和 V4 - V5 高变区使用最为频繁。
研究结果
- 原核生物多样性和群落结构:通过分析,共生成了 30,308 个以 97% 序列同一性聚类的操作分类单元(OTUs),鉴定出 65 个细菌门和 9 个古菌门。在物种水平上,变形菌门(Proteobacteria)、拟杆菌门(Bacteroidota)、厚壁菌门(Firmicutes)和放线菌门(Actinobacteriota)展现出较高的多样性;在相对丰度方面,变形菌门、蓝细菌门(Cyanobacteria)、拟杆菌门和放线菌门在原核生物群落中占比较高。尽管蓝细菌仅占已鉴定物种的约 1%,但其在原核生物相对丰度中却占比 14.63%。四个海域原核生物群落结构相似,主要由 α - 变形菌纲(Alphaproteobacteria)、蓝藻纲(Cyanobacteriia)、γ - 变形菌纲(Gammaproteobacteria)、拟杆菌纲(Bacteroidia)和酸微菌纲(Acidimicrobiia)主导。
- 数据记录:研究团队采集的 186 个样本的 16S rRNA 基因序列原始数据已存入 NCBI 数据库,生物项目登录号为 PRJNA1005344、PRJNA1127518 和 PRJNA1127863。数据集中所有原始数据的 SRA 登录号在补充表 1 中详细列出。本研究还生成了 SRP45501454、SRP51555749、SRP51579333 等记录。研究中使用的所有 16S rRNA 基因原始序列均可根据补充表 1 中的 SRA 登录号从 NCBI SRA 数据库下载。包含每个 OTU 代表性序列和分类学归属的补充表 3 已存于 Figshare(https://figshare.com/articles/dataset/A_dataset_of_prokaryotic_biodiversity_in_the_surface_layer_of_the_China_Seas/26077138/5)。
- 技术验证:本研究样本选择遵循方法部分所述的相同标准,测序处理采用 QIIME2 流程,且标准统一。考虑到不同研究使用的 16S rRNA 基因引物不同,研究人员采用参考映射方法将所有序列聚类为 OTUs。具体来说,将不同引物扩增的序列与 16S rRNA 基因的全长参考序列进行比对。该方法在微生物研究中常用于整合不同引物的数据,研究使用从 QIIME2 教程(https://docs.qiime2.org/2022.2/data - resources/)下载的 Silva 138 99% OTUs 全长序列数据库作为参考数据库,并以 97% 的序列同一性对研究中的序列进行聚类。
- 不平衡采样:数据集包含来自中国海洋四个区域 594 个采样站的 1194 个样本,采样在时间和空间上存在不平衡。夏季采集的样本占比 60.97%(n = 728),显著多于其他季节,春季仅采集 166 个,冬季采集 65 个。并且,仅夏季的样本覆盖了四个区域。渤海和黄海的样本在冬季较多,春季和秋季较少;而南海和东海的样本在春季和秋季更为丰富。
中国海洋采样受天气条件和海况影响较大,例如冬季南海和东海海况恶劣,采样难度大;夏季则条件较为适宜,且部分区域夏季生物活动更活跃,更适合采集样本。此外,资金和研究船只等资源有限,也使得研究人员优先选择某些季节和区域进行采样,从而导致了采样的不平衡。这种时空上的不平衡为在环境变化下全面研究原核生物多样性和群落结构带来了挑战,因此,除夏季外,加强其他三个季节的采样工作至关重要。
研究结论与意义
本研究构建了中国海洋表层原核生物 16S rRNA 基因序列数据集,涵盖多个海域大量样本。通过对这些样本的分析,详细揭示了中国海洋原核生物的多样性和群落结构特征,为深入了解原核生物在不同区域的分布规律以及它们与各种环境之间的相互作用提供了重要基础数据。
该数据集的建立,弥补了以往中国海洋原核生物研究在大尺度系统性方面的不足,有助于科研人员进一步探索原核生物在海洋生态系统中的功能和作用机制。例如,通过分析不同区域原核生物群落结构的差异,能够更好地理解海洋环境变化对生物群落的影响,为海洋生态保护和生物资源合理开发提供科学依据。
然而,研究也发现了采样不平衡的问题,这对后续研究提出了新的挑战和方向。未来研究需要加强在其他季节的采样工作,以获取更全面、均衡的数据,更准确地揭示中国海洋原核生物的多样性和分布规律。总体而言,这项研究成果对于推动中国海洋原核生物研究、完善海洋生态系统认知具有重要的科学价值和现实意义,为该领域的后续研究开辟了新的道路。