GPSAdb 2.0:扩展的基因扰动转录组图谱及其在调控基因发现中的增强工具

《Nucleic Acids Research》:GPSAdb 2.0: an expanded atlas of gene-perturbation transcriptomes with enhanced tools for regulatory gene discovery

【字体: 时间:2025年10月30日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本刊推荐:为系统解析基因功能与调控网络,研究人员开展了GPSAdb 2.0数据库的构建研究。该平台整合7,665组基因扰动(knockdown/knockout)转录组数据,涵盖42,235个样本、2,810个扰动基因及1,063种细胞系,并创新开发BioTrigger基因集富集分析工具与fastGPSA快速差异表达分析模块。通过案例验证发现OVOL2可作为ESR1上游调控因子,为转录调控机制研究提供新视角。该资源显著提升基因扰动数据的可及性与分析效率,对疾病机制解析具有重要价值。

  
在生命科学领域,解析基因功能及其调控机制是理解生物过程与疾病发生的关键。基因扰动技术(包括基因敲除、敲低等)通过特异性改变目标基因表达,观察转录组变化,为基因功能研究提供因果性证据。然而,随着高通量测序技术的普及,海量扰动转录组数据呈现分散、异质化特点,如何有效整合并挖掘其中生物学规律成为亟待解决的挑战。
目前虽有Connectivity Map、KnockTF等数据库资源,但在数据覆盖广度与分析工具灵活性方面仍存在局限。单细胞扰动数据库(如scPerturb)虽具潜力,却受限于数据集规模与技术稀疏性。为此,研究团队开发了GPSAdb 2.0,旨在构建更全面的基因扰动转录组图谱,并配备高效分析工具,助力调控基因的系统性发现。
本研究通过整合NCBI GEO与ENCODE平台的7,665组高质量扰动数据,建立覆盖1,063种细胞系的标准化资源库。新引入的BioTrigger工具支持自定义基因集与扰动数据集匹配分析,而fastGPSA则通过G-score量化计算实现扰动效应的快速比对。案例研究表明,该平台不仅能验证已知调控关系(如ESR1与LATS1的Hippo通路交叉对话),还可发现新型调控因子(如OVOL2对ESR1的上游调控作用)。相关成果发表于《Nucleic Acids Research》数据库专刊,为基因调控网络研究提供重要基础设施。
关键技术方法
研究团队通过复合查询从NCBI GEO筛选17,099项候选研究,经人工校验获得7,643组可访问的扰动对照数据,与ENCODE的879组实验合并后标准化处理。采用RNA-seq统一分析流程(比对、定量、标准化)确保数据可比性,并通过GSEA(基因集富集分析)筛选富集基因数≥2且上下调基因>10的可靠数据集。细胞系身份通过DepMap映射与人工验证确认,最终构建包含7,665组扰动数据的资源库。
数据规模与功能升级
GPSAdb 2.0较1.0版本实现数据量级跃升:扰动组数从3,048增至7,665(2.51倍),样本数从15,794增至42,235(2.68倍),扰动基因从1,421增至2,810(1.98倍),细胞系从502扩展至1,063(2.12倍)。新增的BioTrigger工具支持用户上传自定义基因集(如铁死亡、化疗耐药相关基因),通过GSEA富集评分(ES)识别激活(ES>0)或抑制(ES<0)型扰动事件。fastGPSA工具将用户输入的差异表达基因分为上下调两组,分别进行GSEA分析后计算G-score(=ESdown-ESup),负值表示与查询扰动方向相似。优化算法使分析速度提升4倍,同时保留结果可重现性。
案例验证:OVOL2作为ESR1新型调控因子的发现
通过fastGPSA分析MCF7细胞中ESR1敲低数据(D21455),在排名前十的结果中成功捕获4个独立ESR1扰动数据集,验证工具敏感性。工具还识别出已知ESR1互作因子(如LATS1、KMT2C、TRPS1),其中LATS1扰动谱与ESR1高度相似,符合Hippo-ERα通路交叉对话的已知机制。值得注意的是,RNA结合蛋白ELAVL1(HuR)虽与ESR1表达呈负相关,但文献证实ERα具RNA结合能力,提示非经典调控途径的存在。
分析意外发现转录因子OVOL2排名显著(图1D),其扰动谱与ESR1敲低高度一致(图1E)。对OVOL2敲除数据(D24044)的验证显示:ESR1 mRNA水平显著下降(调整后P=0.0019)(图1F),雌激素反应晚期通路(Hallmark Estrogen-Response-Late)富集评分ES=-0.791(FDR<0.001)(图1G-H)。蛋白实验进一步证实siOVOL2可降低ERα蛋白表达,而siESR1不影响OVOL2水平(图1I-J),支持OVOL2位于ESR1上游的调控模型。
研究结论与展望
GPSAdb 2.0通过大规模数据整合与创新工具开发,实现了基因扰动转录组数据的系统化挖掘。其G-score定向相似性度量可精准识别调控关系,而双基因集交叉分析策略(如干扰素激活与细胞周期抑制组合)能揭示复杂生物学事件的核心调控因子。当前数据库仍存在细胞系覆盖不均、扰动效率差异等局限,未来将通过纳入CRISPR激活/抑制(CRISPRi/a)数据、时间序列扰动实验及开放程序化接口持续升级。该平台为基因功能解析、疾病机制研究及治疗靶点发现提供了高效资源,有望推动转录调控研究的范式创新。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号