花生基因组资源(PGR):一个面向栽培花生的功能基因组学平台
《Plant and Cell Physiology》:Peanut Genome Resource: A Functional Genomics Platform for Arachis hypogaea
【字体:
大
中
小
】
时间:2025年12月12日
来源:Plant and Cell Physiology 4
编辑推荐:
本研究针对栽培花生(Arachis hypogaea)功能基因组注释不足的问题,开发了升级版Peanut Genome Resource(PGR)平台。该平台整合了石头奇品种的基因组注释、多组织表达谱、遗传图谱和表型数据,并首次集成了顺式调控元件分析、共表达网络构建等生物信息学工具,为花生遗传育种和功能基因组研究提供了强大资源。
花生作为全球重要的油料作物,其产量在2025年已达到约5178万公吨,占全球油料作物的第四位。尽管野生和栽培花生的全基因组测序已完成,且PeanutBase等数据库提供了丰富的基因组资源,但栽培花生中绝大多数基因的功能仍未被阐明。这一研究空白严重限制了花生分子育种和农艺性状改良的进程。为了突破这一瓶颈,研究人员开发了一个功能强大的综合性基因组学平台——花生基因组资源(Peanut Genome Resource, PGR),专注于为中国主栽花生品种“石头奇”(Arachis hypogaea var. Shitouqi)提供全面的基因组、注释和表型数据。
这项发表在《Plant and Cell Physiology》上的研究,旨在解决现有花生基因组数据库中关于中国栽培品种数据不足的问题。更新后的PGR平台整合了广泛的基因组注释信息,例如基因功能、蛋白结构域、转录因子家族、基因本体论(Gene Ontology, GO)术语和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路。此外,PGR还提供了跨组织和条件的基因表达谱,以及差异基因表达和共表达分析工具。值得一提的是,PGR是首个整合了先进生物信息学工具用于顺式调控元件分析的花生研究平台,例如预测转录因子结合位点(Transcription Factor-Binding Sites, TFBSs)、识别CpNpG岛、串联重复序列和单序列重复(Single Sequence Repeats, SSRs),并进行虚拟聚合酶链式反应(in silico PCR)分析遗传标记。凭借其用户友好的界面和全面的分析能力,PGR成为了推动花生遗传学、育种和功能基因组学研究的有力工具。
为构建此平台,研究团队汇集了多来源数据。核心基因组组装和注释数据来自国家生物技术信息中心(BioProject: PRJNA480120)及福建农林大学庄伟建教授实验室提供的石头奇品种数据,包括29个组织的RNA测序(RNA-seq)数据和32个微阵列数据集。遗传标记信息(如SNP、SSR、QTL)则从PeanutBase及12篇已发表文献中手动整理,整合成18张遗传连锁图。关键技术方法包括:利用InterProScan进行蛋白结构域注释和GO/KEGG功能富集分析;集成PlantPAN数据库的转录因子结合位点预测工具(MATCH算法)进行启动子顺式调控元件分析;基于ExPath工具使用R语言进行差异表达基因(DEGs)筛选和共表达网络分析(采用Pearson和Spearman相关);使用Tandem Repeats Finder和MISA-web等工具进行CpNpG岛、串联重复和SSR序列识别;并利用Exonerate软件包的ipcress工具进行虚拟PCR模拟。
数据库构建与通用功能
PGR平台基于Apache Web服务器和MySQL数据库构建,界面采用PHP、HTML和JavaScript开发。平台聚焦于花生品种“石头奇”的基因组,该基因组包含20条染色体规模的支架,对应A和B两个亚基因组。注释显示共有75,810个蛋白编码基因,平均基因长度3,155 bp。平台集成了12个花生属物种的描述信息、51个花生品种的重测序数据和表型信息、59个突变体以及18张包含21,069个标记的遗传连锁图。平台提供六大核心功能:浏览(Browse)、搜索(Search)、种质与品种(Germplasm & Variety)、图谱与性状(Maps & Traits)、分析(Analysis)和下载(Download)。
浏览与搜索
“浏览”模块整合了JBrowse基因组浏览器,支持按基因标识符(ID)或基因组坐标进行基因定位和可视化,并设有专门的转录因子(TF)浏览器。“搜索”功能支持通过基因ID、名称、功能描述以及GO术语、KEGG通路ID、InterPro结构域ID等进行高级查询。结果页面详细展示GO和KEGG通路注释、蛋白结构域分类,并可下载编码序列和蛋白序列的FASTA文件。此外,PGR提供了“亲本ID映射”功能,用于识别四倍体栽培花生(AABB基因组)与其二倍体祖先A. duranensis(AA)和A. ipaensis(BB)之间的同源转录本,并显示蛋白结构域和序列比对信息。
表达分析
PGR整合了29个RNA-seq数据集和32个微阵列数据集,覆盖不同组织、发育阶段和胁迫条件。用户可通过转录本ID或探针ID查询目标基因的表达谱,并以折线图直观展示。“组织特异性搜索”可识别在特定组织中特异性表达的基因。“差异表达基因(DEGs)搜索”可列出在激素或非生物胁迫处理叶片中表达差异的基因。平台还支持对用户定义基因集进行KEGG通路和GO富集分析。共表达分析提供“单基因相关性”和“相关性网络”两种模式,基于Pearson或Spearman相关系数揭示具有相似表达模式的基因集合。
启动子与序列分析
PGR的“调控元件分析”功能可扫描目标基因上下游区域,预测转录因子结合位点(TFBSs)、CpNpG岛和串联重复序列。用户可选择物种特异性TF结合矩阵、上传自定义 motifs 并指定分析区域长度。“基因群组分析”功能则能识别一组基因共享调控区域中的TF结合位点,从而揭示潜在的共同转录调控因子。
种质与品种、图谱与性状
“种质与品种”模块提供了栽培和野生花生物种的概述,包括物种、栽培品种、突变体和变种四大类信息。“图谱与性状”模块允许用户跨18张遗传连锁图搜索遗传标记、SSRs、SNPs和QTLs。用户可通过关键词或引物序列进行搜索,结果页面提供标记的详细信息、在连锁图上的位置可视化。平台还提供虚拟PCR(in silico PCR)工具和BLAST搜索功能,用于预测标记在石头奇基因组中的位置。
案例研究:整合顺式调控和共表达网络分析揭示LEA5基因的候选转录调控因子
为展示PGR的应用价值,研究团队以晚期胚胎发生丰富蛋白(Late Embryogenesis Abundant, LEA)中的LEA5基因为例进行了案例研究。LEA5是LEA第3家族成员,在植物响应干旱、盐和热等非生物胁迫中起作用。通过PGR分析4个LEA5基因(AH01G27080, AH04G10170, AH11G30560, AH14G12410)在29个转录组数据集中的表达谱,发现它们可分为两组:第一组(AH01G27080和AH11G30560)在胚胎、果皮和干旱胁迫下的叶片中高表达,而在化学处理(如脱落酸ABA)或室温下的叶片中低表达;第二组(AH04G10170和AH14G12410)则呈现相反的表达模式。对LEA5基因上游2000 bp启动子区进行调控元件分析,发现Myb/SANT、AP2/ERF、WRKY和NAC等TF家族的结合位点在所有LEA5基因中高度保守。共表达网络分析进一步显示,一些NAC家族成员(如NAC78)与第一组LEA5基因共表达,而ERF家族成员(如RAP2-11)与第二组LEA5基因(AH14G12410)共表达。值得注意的是,WRKY家族TF虽形成广泛共表达网络,但未发现与LEA5基因有直接共表达关系。该案例表明,栽培花生中LEA5的表达调控是模块化和组别特异性的,涉及不同的TF网络,这凸显了整合转录组学和调控元件分析对于阐明基因功能的重要性。
结论与意义
升级版的PGR平台标志着花生品种“石头奇”基因组研究的重要进展。该平台整合了基因组注释、转录组表达数据、遗传连锁图谱和表型信息,解决了先前花生基因组资源的关键局限。其集成的生物信息学工具,如调控元件预测、序列分析和虚拟PCR,大大增强了基因组数据的可及性和实用性。综上所述,PGR为研究人员和育种家提供了一个强大的工具集,用于研究花生的遗传性状、调控网络和分子标记,从而支持改进花生育种策略并推动花生功能基因组学的研究进程。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号