综述:基因对方法在临床研究中的应用:推进精准医学

【字体: 时间:2025年04月10日 来源:Molecular Biomedicine 6.3

编辑推荐:

  这篇综述系统评估了基因对分析框架,将十一种计算方法分为基于表达值和基于排序关系两类。通过肺结核研究的真实数据集构建分析流程,展示其在精准生物标志物发现和疾病机制研究中的潜力,为临床研究提供新思路。(基因对、高通量测序、临床研究)

  ### 基因对方法:开启临床研究新视野
在生命科学领域,基因作为生命的基本单元,与生物体的各种生命现象息息相关。随着高 - throughput 测序技术和 DNA 微阵列技术的广泛应用,大量的高通量基因表达数据涌现,这些数据为疾病研究提供了丰富的信息。然而,传统的基于单基因原始表达水平的差异表达分析方法存在局限性,如易受批量效应影响、对平台依赖性强等。基因对方法作为一种新兴的研究手段,通过分析两个基因之间的相对表达关系,展现出独特的优势,正逐渐成为生物医学研究的焦点。

基因对方法概述


基因对方法主要分为基于基因表达值和基于基因排序关系两大类。基于基因表达值的方法,如 Pair t-score、Gene Expression Ratios(GERs)和 Pair-wise Support Vector Machine ensembles(PSVM),通过结合两个基因的表达值来创建新特征,应用于各种临床问题。而基于基因排序关系的方法,包括 Top-Scoring Pair(TSP)、k-Top Scoring Pairs(k-TSP)、Top-Scoring Pair of Groups(TSPG)等,依赖于比较两个基因的表达值,不受批量效应影响,能产生准确、稳健且易于解释的结果。

基于基因表达值的基因对方法


  1. Pair t-score:由 B? 等人于 2002 年提出,该方法为每个基因对分配一个分数,反映其区分两个实验类别的能力。具体步骤包括将基因表达数据投影到对角线性判别(DLD)轴上,计算 t 分数,并通过 “all pairs” 或 “greedy pairs” 方法选择特征子集。此方法已被应用于结肠癌、急性淋巴细胞白血病等疾病的研究,能通过少量基因表达水平实现准确诊断,还发现了一些单独使用效果不佳但配对后表现良好的基因组合。
  2. Gene Expression Ratios(GERs):Gordon 等人在 2002 年提出的方法,利用基因表达比率和合理选择的阈值来准确区分不同实验类别。在区分恶性胸膜间皮瘤和腺癌的研究中,该方法通过训练集确定具有显著负相关表达水平的基因对,形成表达比率,多个比率组合可提高诊断准确性。此外,GERs 还在髓母细胞瘤治疗疗效预测、乳腺癌临床结果预测等方面展现出应用价值,且不受数据收集平台影响,无需校正批量效应。
  3. Pair-wise Support Vector Machine ensembles(PSVM):Zak 等人于 2016 年提出,将基因对与线性支持向量机算法(SVM)相结合。在结核病研究中,该方法从患者样本中识别出风险基因特征,用于预测结核病进展,具有一定的敏感性和特异性。其步骤包括随机选择样本进行差异分析,训练 SVM 模型,设定准确性阈值筛选基因对,最后构建 SVM 模型进行分类。

基于基因排序关系的基因对方法


  1. Top-Scoring Pair(TSP):Geman 等人在 2004 年提出的用于微阵列数据分类的新方法,基于相对基因表达水平的成对比较。通过对基因表达值进行排序,计算基因对在不同样本类别的频率差异,选择得分最高的基因对作为 Top-Scoring Pair 进行分类。该方法在预测乳腺癌患者淋巴结状态、白血病亚型分类等方面取得了良好效果,还被用于开发多种疾病的诊断算法和预后模型,如结直肠癌亚型分类、卵巢肿瘤预后模型等。
  2. k-Top Scoring Pairs(k-TSP):为解决 TSP 方法在训练数据受扰动时的稳定性问题,Tan 等人于 2005 年提出 k-TSP 方法。该方法基于多个不相交的 Top-Scoring Pair 进行分类,是一种集成学习方法。通过计算基因对的分数和次要分数(排名差异),选择 k 个最高得分的基因对,根据多数投票原则确定样本类别。k-TSP 方法在多种癌症研究中得到应用,如预测前列腺癌进展、肝细胞癌复发等,且有研究者开发了相关 R 包,如 “ktspair” 和 “switchBox”,方便该方法的应用。
  3. Top-Scoring Pair of Groups(TSPG):Xu 等人于 2007 年提出的方法,旨在识别各种癌症的常见基因表达特征。该方法保留了 TSP 分类器的基本属性,引入重复随机采样策略,将更多基因纳入决策过程。通过对大量癌症数据集的分析,TSPG 识别出由 46 个基因组成的常见癌症特征,可用于癌症的诊断测试。其步骤包括随机选择样本,获取基因对排名,选择 k 个基因对并分组,重复操作计算基因频率,最后根据基因在组中的平均排名对新样本进行分类。
  4. k-Top Scoring Pairs + Support Vector Machine(k-TSP + SVM):由于 k-TSP 方法在某些挑战性数据集上的稳健性不足,Shi 等人在 2011 年提出将 k-TSP 得到的多个基因对作为特征构建 SVM 模型。在癌症预后研究中,该方法在多个数据集上优于 k-TSP 分类器,性能与单独使用 SVM 相当或更好,已被应用于预测黑色素瘤亚型等研究。
  5. Rank Comparison(RankComp):Wang 等人于 2015 年提出的用于检测个体疾病样本中差异表达基因的方法。该方法利用正常组织中稳定的基因对,通过比较疾病样本和正常样本中基因对的排序差异,使用 Fisher 精确检验确定基因是否差异表达。在肺癌预后生物标志物的识别和结直肠癌诊断等研究中,RankComp 方法展现出良好的性能,还可用于个体水平的通路分析和患者分层。
  6. Relative Expression Orderings(REOs):Ao 等人在 2018 年提出的方法,根据样本中基因对的相对表达顺序确定临床应用特征。在肝细胞癌研究中,REOs 方法从训练数据集中识别出 19 个基因对的特征,可有效区分肝癌和大多数肿瘤邻近组织与非肝癌患者的肝硬化组织。其步骤包括确定反向基因对,计算基因对的绝对排名差异和几何平均,选择具有最大反转程度的基因对作为种子,通过前向选择过程确定最佳基因对子集,最后根据多数投票规则进行分类。该方法已在多种癌症的诊断和预后预测中得到应用。
  7. Relative Expression Orderings + Machine Learning(REOs + ML):Zhang 等人于 2020 年提出的结合机器学习方法与 REOs 的方法。在肝细胞癌研究中,首先通过 REOs 方法提取基因对特征,然后应用最大相关最小冗余(mRMR)和增量特征选择(IFS)方法消除无关特征,确定 11 个基因对,与 SVM 集成建立诊断模型。该模型在多个独立数据集上验证了区分肝癌和非癌肝组织的能力,且特征具有稳健性。此外,该方法还在 2 型糖尿病诊断、胰腺癌识别等研究中取得了良好效果。
  8. Top-Scoring Pair + Machine Learning(TSP + ML):基于前面方法的经验,作者开发的结合 TSP 与机器学习方法的新方法。通过 TSP 方法获得基因对分数并排序,设定阈值提取初步特征,对特征进行编码,应用多种特征重要性排序方法对初步特征进行排名,再使用 IFS 方法进行特征选择,将特征添加到多种算法中进行交叉验证和网格搜索,根据受试者工作特征曲线下面积(ROC-AUC)选择最佳特征和算法组合构建最终模型。该方法在特征选择上更有效,能为特定临床问题找到最佳模型。

基因对方法的比较


在十一种基因对方法中,除 RankComp 用于识别个性化差异表达基因外,其余十种主要用于分类任务。其中,Pair t-score 和 PSVM 方法易受批量效应影响,因此选择了其余八种方法进行比较,包括一种基于表达值的方法(GERs)和七种基于排序关系的方法。利用 Python 和 R 语言实现这些方法,并使用来自 Gene Expression Omnibus(GEO)数据库的四个肺结核相关数据集作为基准数据集进行评估。结果显示,这些方法在肺结核这一非癌症疾病的外部验证集中达到了 0.849 - 0.953 的准确率,展示了其临床应用潜力。TSP + ML 方法在训练、测试和外部验证集中表现最佳,且这些方法仅依赖 2 - 30 个基因就能实现优秀的预测性能。此外,还发现了五个被多种方法选为特征基因的基因,它们与肺结核密切相关,为疾病研究提供了有价值的线索。

基因对方法的应用


  1. 疾病诊断:在胰腺癌诊断中,Zhou 等人利用 REOs 方法开发了能区分胰腺癌组织和非癌组织的 mRNA 特征,在外部验证队列中表现出高灵敏度和特异性,对内镜活检标本的诊断准确率达 100%。Xu 等人使用 TSP 方法整合前列腺癌微阵列数据集,鉴定出用于诊断前列腺癌的稳健基因对,具有较高的准确率、灵敏度和特异性。在头颈部鳞状细胞癌中,Michele 等人通过分析 miRNA 表达,发现基于 miR - 221:miR - 375 表达比率的生物标志物具有良好的预测性能。Nathan 等人利用 TSP 方法鉴定出区分胃肠道间质瘤和平滑肌肉瘤的基因对,可通过 PCR 检测辅助诊断。基因对方法还用于缺血性中风等疾病的诊断。
  2. 亚型分类:Claudi 等人利用 TSP 和 k-TSP 方法开发了 CRIS-TSP 算法,用于结直肠癌亚型分类,该算法能维持原有的分类能力,并进一步证实了某些亚型患者的预后情况,为个性化治疗提供指导。Jennifer 等人通过基因表达分析,利用 TSP 结合 SVM 方法训练黑色素瘤亚型预测模型,在留一法交叉验证中分类准确率达 94%,有助于亚型诊断和个性化治疗策略的制定。
  3. 疾病进展:Hubert 等人使用 k-TSP 方法训练分类器,基于 13 个上调和下调的基因对特征预测前列腺癌的转移进展,该特征在训练和测试集中表现出稳健性和稳定性,且与无进展生存期显著相关。
  4. 疾病预后:Rajeshkumar 等人使用 k-TSP 方法从胰腺癌患者样本中鉴定出预测 AZD0530 治疗活性的基因对,在独立测试集中具有高灵敏度和特异性。Chen 等人证实了 GMPS|RAMP3 基因对作为肝癌预后生物标志物的有效性,GMPS 的敲低可抑制肝癌细胞增殖、促进凋亡并增加对吉西他滨的敏感性。Xu 等人发现与中性粒细胞胞外陷阱(NETs)相关的基因对特征可预测肝癌预后,Huang 等人发现 CSTF2/PDE2A 基因对可预测肝癌预后并调节细胞周期。在乳腺癌研究中,Ma 等人发现 HOXB13:IL17BR 表达比率可准确预测他莫昔芬治疗的疗效,且与患者临床结果相关,为个性化治疗提供重要依据。基因对方法还用于多种癌症的预后模型开发,如宫颈癌、结肠癌、胃癌等,在预测患者生存、风险分层和指导治疗策略方面取得了显著成果。

基因对方法的扩展


  1. 其他数据类型的扩展:基因对方法不仅适用于 mRNA 转录组数据,还可扩展到其他数据类型。例如,Ren 等人利用 GERs 方法分析骨肉瘤的 microRNA 表达数据,开发预测骨肉瘤的生物标志物;Patnaik 等人使用 TSP 方法从 microRNA 表达数据中识别非小细胞肺癌复发的预后标志物;Lin 等人将 k-TSP 原理应用于肝癌和慢性肝病的血清代谢组学数据,成功区分两种疾病并揭示相关代谢紊乱;Yan 等人运用 RankComp 原理检测肺癌腺癌样本 DNA 甲基化数据中的差异甲基化 CpG 位点。此外,基因对方法还被应用于 lncRNA 表达数据、蛋白质数据等,在不同领域发挥重要作用。
  2. 多分类问题的扩展:虽然基因对方法主要基于二分类问题,但可通过 “One-vs-One”“One-vs-All” 和 “Hierarchical Classification” 等策略扩展到多分类问题。“One-vs-One” 方法为每对类别训练一个二分类器,通过投票机制确定样本类别,能更精细地学习类别边界,但计算成本高;“One-vs-All” 方法为每个类别训练一个二分类器,根据输出概率选择类别,方法简单,但在类别相似时性能可能下降;“Hierarchical Classification” 方法通过构建类别层次结构进行分类,可提高分类效率和准确性。Marzouka 等人还开发了 “multiclassPairs” R 包,专门用于基于特征对训练多分类器,使基因对方法能更好地应对多分类任务挑战。

讨论与展望


基因对方法通过整合两个基因的信息进行数据分析,能提供更全面、细致的生物学见解,且对批量效应具有天然的抗性,在挖掘不同实验条件下的生物数据集方面表现出色。然而,该方法也存在一些局限性,如将连续表达数据转换为二元顺序关系会牺牲表达量的定量信息,技术伪影和阈值依赖的分析框架可能影响跨平台再现性,从临床角度看,还面临肿瘤微环境异质性、疾病状态动态演变以及基因对生物学解释有限等挑战,且缺乏标准化的临床验证框架。未来,基因对方法有望在推进精准医学方面发挥更大的作用,可通过提高计算效率、整合多组学数据、改善结果解释等方面的努力,更好地支持临床决策,为医学研究和临床实践带来更多突破。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号