基于基因集嵌入揭示潜在生物学功能关联:为生命科学研究开辟新视野

《BMC Bioinformatics》:Uncovering latent biological function associations through gene set embeddings

【字体: 时间:2025年03月25日 来源:BMC Bioinformatics 2.9

编辑推荐:

  为解决传统生物网络分析在处理不完整或异质数据集时的困境,研究人员开展基于基因集嵌入揭示潜在生物学关联的研究,发现新关联并验证跨物种稳健性,为理解复杂生物过程和疾病提供新视角。

  在生命科学的探索之旅中,生物系统的复杂性就像一座神秘的迷宫,吸引着无数科研人员不断探寻其中的奥秘。传统的生物网络分析方法,就像是拿着一张不太精确的地图在迷宫里摸索。虽然它们能利用高可信度的相互作用数据来描绘一些关键的生物过程,比如 KEGG 和 STRING 等数据库常被用于辅助分析,但是当面对不完整或异质的数据集时,这些方法就显得力不从心了。就好比地图上有些地方缺失了信息,或者标注混乱,导致科研人员难以准确找到前进的方向。
为了突破这一困境,复旦大学的研究人员勇挑重担,开展了一项极具创新性的研究。他们将研究成果发表在了《BMC Bioinformatics》上,为生物网络分析领域带来了新的曙光。

研究人员采用的主要技术方法包括:数据集成时,从分子特征数据库(MSigDB)获取数据,并利用 R 包 biomaRt 将小鼠基因转换为人类直系同源基因,确保跨物种分析的可比性;运用 node2vec 算法对图结构数据中的节点进行嵌入,通过控制随机游走的参数,平衡广度优先搜索(BFS)和深度优先搜索(DFS),从而捕获节点间的上下文关系;使用 Jaccard 指数衡量基因集的重叠程度,以此表示术语间的相似性;引入可靠性评分(RS),从 0 - 5 分对生物关联的可信度进行评估;通过超参数优化和 k - 均值聚类,利用轮廓系数(Silhouette score)和戴维斯 - 布尔丁指数(Davies - Bouldin score)来评估嵌入质量 。

研究结果如下:

  1. Jaccard 指数的生物学相关性解读:较高的 Jaccard 指数通常意味着基因集之间有大量重叠,表明存在较强的生物学联系。但较低的 Jaccard 指数也不容忽视,尤其是当基因集包含较少基因时,适度的重叠也可能暗示有意义的关联。通过超几何分布检验发现,较高的 Jaccard 指数一般与较高的 RS 相关,不过较低 Jaccard 指数时 RS 的方差更大,可能包含弱关联或新关联。例如,GOBP_UBIQUITIN_DEPENDENT_GLYCOPROTEIN_ERAD_PATHWAY 和 GOMF_MANNOSYL_OLIGOSACCHARIDE_1_2_ALPHA_MANNOSIDASE_ACTIVITY 之间 Jaccard 指数为 1,它们在生物学上密切相关,描述了内质网中相关的蛋白质处理过程。而当 Jaccard 指数在 0.5 左右时,虽然直接文献支持减少,但关联仍具有生物学合理性,如 FU_INTERACT_WITH_ALKBH8 和 GOCC_CHAPERONIN_CONTAINING_T_COMPLEX(CCT)之间,虽无明确文献记载联系,但共享关键基因 TCP1,在应对压力时,它们在蛋白质质量控制方面存在潜在功能联系。
  2. node2vec 与其他嵌入方法的比较分析:研究对比了 node2vec 与 FastMap、GraphFactorizations、LINE、RandomProjection 等图嵌入技术。node2vec 利用有偏随机游走为嵌入丰富有意义的上下文,能发现间接相关节点间的潜在关联,对稀疏图特别有用,且善于揭示 RS 在 3 - 4 之间的潜在关系。LINE 和 RandomProjection 在识别语义相似且文献记录完善的术语对方面表现更好,但在捕捉网络深层结构和复杂关系上较为局限。FastMap 表现较差,GraphFactorizations 虽能获得较高 RS,但生成的局部优化簇受特定类型术语主导,限制了其在更广泛分析中的应用。
  3. 通过基于 node2vec 的距离识别新的生物学关联:与传统的 Jaccard 指数相比,基于 node2vec 的结果 RS 往往较低,但研究价值更大,因为其空间接近度常与表型协同相关。64 维嵌入(d64)比 32 维嵌入(d32)更可靠,能更好地捕捉精细的生物学关系。例如,GNF2_PRDX2 基因集和 HP_ANISOCYTOSIS 基因集 Jaccard 指数仅 0.083,但 node2vec 空间距离在前 5%,可能通过氧化应激机制相关,PRDX2 作为抗氧化酶,可能调节红细胞形态,为血液疾病研究提供新方向。而 KEGG_MEDICUS_REFERENCE_TYROSINE_DEGRADATION 和 WP_TYROSINE_METABOLISM_AND_RELATED_DISORDERS 虽基因集相同,但 node2vec 分析显示空间距离近,暗示生物学网络联系紧密和潜在临床表型共性;KEGG_MEDICUS_REFERENCE_TRANSPORT_OF_CALCIUM 和 GOMF_GLUTAMATE_GATED_CALCIUM_ION_CHANNEL_ACTIVITY 基因集部分相同,但 node2vec 能根据功能和病理相关性区分它们,体现了该方法捕捉网络拓扑差异的能力。
  4. 应用临床见解揭示复杂生物关系:在免疫疾病研究中,研究人员以 HP_ABNORMAL_NEPHRON_MORPHOLOGY 为切入点,通过计算 Jaccard 指数和 node2vec - 基于的距离,确定了 MEFV、IRF5、TNFAIP3 和 PTPN22 等关键基因,这些基因在免疫调节和肾脏病理中起重要作用。例如在狼疮性肾炎(LN)研究中,发现 IRF5 和 STAT4 是连接蛋白尿和皮疹的关键基因,且药物羟氯喹(HCQ)对相关通路的调节存在复杂影响,凸显了整合术语分析和生物学验证的重要性。
  5. 跨物种发现揭示共享生物学见解:由于人体实验的伦理限制和细胞系实验与体内环境的差异,跨物种关联研究至关重要。研究人员利用 64 维 node2vec 无监督嵌入对人和小鼠基因数据集进行分析,映射了大量同源基因对,发现了如小鼠肺 B 细胞衰老与人类乳腺癌细胞状态之间的潜在联系,为理解衰老和癌症的关系提供了新线索。

研究结论表明,该整合框架揭示了预期和新的生物学见解,为传统生物网络分析提供了补充视角,有助于更深入地理解复杂生物过程和疾病。然而,研究也存在一定局限性,如依赖现有数据集,引入了不确定性,且未对数据项赋予明确权重。但 node2vec 算法的简单性和灵活性使其在探索性分析中具有优势。未来研究可通过纳入补充资源、加强实验验证和利用更复杂模型(如 GNN)来进一步提升分析的准确性和针对性,推动该研究从探索性工具向强大的生物发现和临床应用平台转变,为生命科学和医学研究带来更多突破。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号