基于微阵列数据的加速失效时间模型迁移学习:突破样本局限,精准预测生存风险

【字体: 时间:2025年03月18日 来源:BMC Bioinformatics 2.9

编辑推荐:

  研究针对微阵列预后研究样本量小问题,开展 AFT 模型迁移学习研究,提升基因选择和风险评估能力。

  在医学研究的广阔领域中,对患者疾病复发或死亡时间的精准建模,是临床研究的关键一环,尤其是对于像癌症这样的重大疾病。随着高通量技术的蓬勃发展,从海量的基因数据中找到与疾病发生发展相关的关键基因,成为了科研人员追逐的目标。然而,现实却给科研工作者们出了一道难题。当研究数据仅来源于单个机构或临床试验时,样本量往往十分有限。就拿浸润性小叶癌(ILC)来说,它在所有乳腺癌病例中仅占约 5 - 15%,是一种相对罕见的乳腺癌亚型。而且,与常见的浸润性导管癌(IDC)相比,ILC 患者通过常规治疗手段很难获得良好的治疗效果。之前有研究利用微阵列数据对 ILC 患者进行预后分析,虽然证实了基因组分级的预后价值,但由于病例稀少以及基因测序成本高昂,收集到的样本量远远无法满足研究需求,这使得准确评估单个基因的作用以及患者的风险变得困难重重。
为了解决这些棘手的问题,来自首都经济贸易大学统计学院的研究人员开展了一项重要研究。他们的研究成果发表在《BMC Bioinformatics》上,为相关领域带来了新的曙光。

在这项研究中,研究人员主要采用了以下几种关键技术方法:
一是基于 Stute 的加权最小二乘法。该方法利用 Kaplan - Meier 权重处理 AFT 模型中的右删失问题,通过构建加权最小二乘损失函数,使得模型能够更准确地处理实际数据中的删失情况。
二是迁移学习算法。研究人员提出了一种针对 AFT 模型的两阶段迁移学习算法(Trans - AFT 算法)。该算法先通过合并所有队列的样本拟合 AFT 模型得到初步估计,再利用目标队列对估计进行校正,以此来提高信息借用和估计的效率与准确性。
三是交叉验证评估。采用留一法(Leave - One - Out,LOO)交叉验证来评估模型的预测性能以及所选基因的相对稳定性,通过计算发生指数(Occurrence Index,OI)和 C 指数等指标,全面评估模型的表现。

下面来看看具体的研究结果:

  1. 模拟研究:研究人员对所提出的 Trans - AFT 算法与其他方法进行了对比。在同质设计和异质设计的模拟场景下,结果显示仅使用目标队列的 Lasso - AFT 模型,其估计误差在大多数情况下最大,并且不会随着源队列数量的增加而改善。而 Pooled - AFT 方法和 Trans - AFT 算法利用了源队列的信息,随着源队列数量 K 的增加,估计误差逐渐减小。同时,随着系数差异 h 的增大以及删失比例的增加,所有方法的估计误差都会上升,但 Trans - AFT 算法始终表现出比 Pooled - AFT 方法更低的估计误差,这表明该算法在适应目标队列和源队列系数差异方面具有更强的能力,能够有效减少信息借用带来的误差。
  2. 数据应用 - GSE88770 数据:针对 ILC 患者的 GSE88770 数据,由于样本量小且删失比例高,仅基于该队列进行基因选择和风险预测效果不佳。研究人员选择了 8 个来自相同平台的乳腺癌患者队列作为源队列,对数据进行预处理和变量筛选后,应用 Trans - AFT 算法,最终筛选出 79 个基因。通过 LOO 交叉验证评估发现,这些基因的 OI 较高,表明该方法在识别重要基因方面相对稳定。同时,根据预测风险分数生成的两个风险组,其 K - M 生存曲线差异显著,并且 Trans - AFT 算法的 C 指数最高,达到 0.73,这充分说明该方法能够令人满意地预测患者的生存风险。
  3. 数据应用 - GSE25055 数据:GSE25055 数据包含 309 例 HER2 阴性乳腺癌患者,研究人员旨在为这类患者开发预测治疗反应和生存结果的模型。同样,他们选择了 7 个基于 GPL - 96 平台的乳腺癌样本作为源队列,经过数据处理和筛选后,应用 Trans - AFT 算法筛选出 56 个基因。这些基因的 OI 较高,体现了良好的稳定性。在评估模型的整体预测能力时,无论是在 GSE25055 队列还是外部验证队列 GSE25065 中,Trans - AFT 算法都能显著区分高风险和低风险组,并且具有最高的 C 指数,分别为 0.72 和 0.66,这进一步证明了该方法在风险评估方面的准确性和有效性。

研究结论与讨论部分,充分肯定了该研究的重要意义。在微阵列预后研究中,当目标队列样本量有限时,利用源队列信息增强对目标队列的分析具有重要的实际意义。所提出的基于 AFT 模型的迁移学习方法,在系数估计和基因选择方面表现出色,模拟研究显示其估计误差更小。通过对 GSE88770 和 GSE25055 数据集的分析,该方法成功识别出了具有强预测能力的少量基因,能够有效进行风险评估。尽管该方法仍面临一些挑战,如源队列选择缺乏科学标准、Lasso 方法在变量选择一致性上存在不足、算法在样本量极小或删失率极高情况下的有效性有待验证等,但这也为后续研究指明了方向。总体而言,这项研究为微阵列预后研究提供了新的思路和方法,有望推动相关领域的进一步发展,帮助科研人员更深入地理解疾病的发生发展机制,为临床治疗提供更精准的指导。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号