利用BioRank对癌症治疗基因进行优先级排序:一个基于生物学信息的PageRank框架

《Computational and Structural Biotechnology Journal》:Prioritizing cancer therapeutic genes using BioRank: A biologically-informed PageRank framework

【字体: 时间:2025年10月02日 来源:Computational and Structural Biotechnology Journal 4.1

编辑推荐:

  基因优先级排序方法BioRank通过整合基因表达、功能注释和共表达网络,改进传统PageRank算法,有效识别癌症治疗靶点基因。

  在现代生物医学研究中,癌症基因的识别与优先排序是推动精准医学和个性化治疗的重要环节。随着高通量技术的发展,研究人员能够获取大量基因表达数据、蛋白相互作用网络以及基因功能注释等信息,这些数据为解析复杂的生物系统提供了丰富的资源。然而,如何有效地整合这些异质数据以识别具有潜在治疗价值的靶点基因,仍然是一个具有挑战性的课题。传统的方法往往仅依赖于网络拓扑结构,例如PageRank算法,其在评估节点(基因或蛋白)的重要性时,忽略了基因表达水平、功能注释和生物相似性等关键生物学特征。因此,这些方法在某些复杂疾病如癌症中的表现往往不够理想。

为了克服上述局限性,本文提出了一种名为BioRank的新方法,它通过将多种生物信息整合进改进版的PageRank算法中,实现了对治疗靶点基因的更精准识别。BioRank引入了一个定制设计的向量,用于综合分析基因表达差异、功能注释(来自GO、KEGG和Reactome数据库)以及基因间的共表达相似性,从而对基因在生物网络中的重要性进行更全面的评估。该方法的核心在于,它不仅考虑了基因之间的相互作用网络,还引入了生物特征作为节点初始化的依据,以提升对潜在靶点的识别能力。

在方法学上,BioRank采用了两种主要策略:节点权重计算和边权重计算。节点权重方面,它利用基因注释信息和基因表达数据构建了一个个性化向量,其中包含来自多个生物学来源的注释信息。为了排除不稳定的注释,研究团队采用Fisher精确检验和FDR校正,确保所选注释具有统计学意义。对于表达数据,研究团队首先对基因表达矩阵进行了Z-score标准化处理,然后通过设定阈值(如Z值大于2.5)筛选出显著差异表达的基因。此外,为了增强基因在表达数据中的重要性,研究团队还考虑了基因与其邻近基因之间的共表达模式,构建了一个基于表达数据的权重向量。

在边权重方面,BioRank将基因之间的相互作用强度与功能相似性相结合。具体而言,边的权重不仅取决于蛋白相互作用网络的连接强度,还融合了基因注释的重叠程度。通过这种方式,BioRank能够在基因相互作用网络中更准确地反映基因间的生物学关系,从而在后续的信号传播过程中,引导出更具有生物学意义的基因优先级排序。最终,BioRank通过一个凸组合策略,将基因注释和表达数据的权重进行整合,生成一个更全面的个性化向量,作为PageRank算法的输入。

为了验证BioRank的有效性,研究团队利用了来自The Cancer Genome Atlas (TCGA)的RNA测序数据,以及来自HIPPIE数据库的蛋白相互作用网络。实验结果表明,BioRank在多个癌症数据集中均能有效识别和优先排序治疗靶点基因。此外,研究团队将BioRank的预测结果与OncoKB数据库和PubMed文献进行了对比分析,发现BioRank在匹配已知治疗靶点、召回率(Recall@)和归一化折扣累积增益(nDCG@)等指标上均优于传统方法,如PageRank和BRW算法。这表明,BioRank不仅能够准确识别已知的癌症相关基因,还能够发现一些尚未被广泛研究的潜在靶点,从而为后续的生物学实验提供有价值的研究方向。

从实验结果来看,BioRank在多个癌症类型(如乳腺癌、结直肠癌、肺癌、甲状腺癌、膀胱癌、前列腺癌和胃癌)中均表现出色。在乳腺癌数据集中,TP53、ESR1、EGFR、AKT1和MYC等基因被识别为高优先级的治疗靶点。TP53是一种重要的肿瘤抑制基因,其突变常与多种癌症相关,包括乳腺癌。ESR1作为雌激素受体α,在激素抵抗性转移性乳腺癌中发挥重要作用。EGFR则是一种受体酪氨酸激酶,在肺癌和脑癌等疾病中常被异常激活,成为重要的治疗靶点。AKT1是一种丝氨酸/苏氨酸激酶,其突变在多种癌症中被发现,并且与某些特定的癌变表型相关。MYC基因则是一种重要的癌基因,其异常表达与多种癌症的发生发展密切相关。

在结直肠癌数据集中,EGFR基因的突变被发现与疾病的发生有关,其中G465E突变位于EGFR蛋白的胞外域,已被证实与结直肠癌相关。而在肺癌数据集中,EGFR基因的突变和扩增模式被详细分析,研究发现EGFR的19号外显子缺失会导致其酪氨酸激酶活性的持续激活,并且这类突变的基因对某些酪氨酸激酶抑制剂(如阿法替尼、厄洛替尼和吉非替尼)具有高度敏感性。这些结果进一步支持了BioRank在识别治疗靶点基因方面的有效性。

值得注意的是,BioRank不仅能够识别已知的治疗靶点基因,还能够发现一些具有潜力但尚未被充分研究的基因。例如,在某些数据集中,GRB2、SUMO2、RELA、TRIM28、FN1、ALB、PNP、CCR3、CDH7、SOX1和CCL18等基因被标记为“潜在候选基因”,这些基因虽然尚未被OncoKB数据库收录,但已有文献支持其在癌症中的生物学意义。此外,BioRank还提出了一些新的候选基因,如PCDHA4、GPR161和CCL17,这些基因可能是未来研究的重点对象。

在算法设计上,BioRank的一个关键创新在于其个性化向量的构建。传统PageRank算法中,所有节点的初始权重是相同的,这导致其在处理复杂生物网络时存在一定的局限性。而BioRank通过引入一个综合基因注释和表达数据的个性化向量,使得初始权重能够更准确地反映基因的生物学重要性。此外,BioRank还采用了凸组合策略,将基因注释和表达数据的权重进行优化,以提升预测的准确性。

在实验评估中,研究团队不仅关注了BioRank在识别已知靶点基因方面的表现,还特别关注了其在发现新靶点方面的潜力。通过将多个生物学数据源整合进算法中,BioRank能够更全面地评估基因的生物学意义,从而在基因优先排序中更有效地平衡已知靶点和潜在新靶点的识别。这种综合方法显著提高了算法的预测性能,使其在多个癌症数据集中均表现出优于传统方法的结果。

从实际应用角度来看,BioRank为癌症研究提供了新的工具和方法,能够帮助研究人员更高效地筛选出具有治疗潜力的基因。在临床实践中,这一工具可以减少用于实验验证的样本数量,从而降低研究成本和时间。此外,BioRank的算法设计具有良好的可扩展性,能够适应不同规模的生物网络,使得其在多种癌症类型中的应用成为可能。

总的来说,BioRank的提出为癌症基因识别和优先排序提供了一个全新的视角。通过整合多种生物信息,它不仅能够更准确地识别已知的治疗靶点,还能够发现潜在的新靶点,为后续的生物学实验和临床研究提供有价值的参考。这一方法的广泛应用将有助于推动精准医学的发展,并为癌症治疗的创新提供新的思路和方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号