分子肿瘤板中自动试验匹配工具的前瞻性实用评估

【字体: 时间:2025年02月05日 来源:npj Precision Oncology 6.8

编辑推荐:

  肿瘤学临床试验在推动癌症治疗进展、为患者提供新的治疗选择方面发挥着关键作用。然而,全球范围内成年癌症患者参与临床试验的比例不足 8%。这一现象的产生受到多种因素的影响,包括社会差异、患者与中心之间的距离、医生的习惯以及临床试验入选标准的数量众多和复杂性等。当前,患者参与临床试验主要依靠治疗医生向招募中心推荐,这种方式依赖医生个人对试验的了解,覆盖范围有限,且手动审核入选标准耗时费力。

  

肿瘤分子委员会中自动试验匹配工具的前瞻性务实评估解读


在肿瘤治疗领域,临床治疗方案的选择一直是关键问题,尤其是对于癌症患者而言,参与临床试验是获取创新治疗方法的重要途径。然而,目前临床试验的参与率较低,其中一个重要原因是患者与临床试验的匹配效率不高。为了解决这一问题,来自法国里昂贝拉尔中心(Centre Léon Bérard)的研究人员开展了一项重要研究。该研究由 Lilia Gueguen、Louise Olgiati 等学者共同完成,并于 2025 年在npj Precision Oncology期刊上发表了题为 “A prospective pragmatic evaluation of automatic trial matching tools in a molecular tumor board” 的论文。这一研究对于提升癌症患者临床试验匹配效率、改善治疗方案选择具有重要的指导意义,为精准肿瘤学领域的发展提供了关键的实践数据和理论支持。


研究背景


肿瘤学临床试验在推动癌症治疗进展、为患者提供新的治疗选择方面发挥着关键作用。然而,全球范围内成年癌症患者参与临床试验的比例不足 8%。这一现象的产生受到多种因素的影响,包括社会差异、患者与中心之间的距离、医生的习惯以及临床试验入选标准的数量众多和复杂性等。当前,患者参与临床试验主要依靠治疗医生向招募中心推荐,这种方式依赖医生个人对试验的了解,覆盖范围有限,且手动审核入选标准耗时费力。


为了克服这些问题,临床试验匹配工具应运而生。这些工具能够自动将试验入选标准与患者特征进行匹配,为患者提供可能适合的临床试验信息。然而,此前的研究多为回顾性研究,且使用合成患者病例,与真实临床场景存在差异。同时,尽管有研究表明这些工具在理论上具有较高的性能,但在实际应用中的表现仍有待验证。因此,本研究旨在通过前瞻性的务实评估,为临床社区提供关于临床试验匹配策略的真实信息。


研究材料与方法


试验匹配工具的选择


研究人员在众多临床试验匹配工具中,基于可用性、与分子肿瘤委员会应用的相关性、用户体验以及初步性能等因素,对 19 种工具进行初步评估后,选择了 4 种工具进行前瞻性评估。这 4 种工具分别来自不同国家,包括法国的 Klineo 和 ScreenAct、西班牙的 Trialing 以及英国的 DigitalECMT。


患者数据收集


研究人员对法国里昂贝拉尔中心分子肿瘤委员会的 157 例连续患者进行了研究,系统地使用选定的工具对每位患者进行匹配。他们回顾了患者的完整电子健康记录,包括疾病特征(如肿瘤类型、转移位置、分子改变)、临床病史(如先前治疗线数)以及一般健康状况(如体能状态)。同时,从该中心的分子项目中获取了患者的体细胞和生殖系分子改变数据。


结果筛选与评估


研究人员对工具提供的结果进行筛选,仅保留基于匹配分子生物标志物提出的临床试验。对于每种工具提出的试验,研究人员手动审核每个试验的入选标准,确定患者是否符合条件。同时,研究人员通过联系研究人员或发起人确认临床试验在 ClinicalTrials.gov 上的状态,并将在中心进行的试验状态与本地数据库进行比较。


评估指标与统计分析


研究使用了多种分类指标来评估工具的性能,包括精度(precision)、灵敏度(sensitivity)等非排名指标,以及平均精度(AP@k)、归一化折损累计增益(nDCG@k)和基于错误阳性率的 FPscore@k 等排名相关指标。通过标准描述性统计和配对学生 t 检验分析结果,并使用 Spearman 相关性分析不同排名下结果的相关性。


大语言模型的应用


研究人员使用 TrialGPT 的提示技术和开源大语言模型的本地版本,对 DigitalECMT 检索到的试验进行重新排名,以评估大语言模型是否能提高试验排名的性能。


研究结果


试验匹配工具的基本情况


4 种工具中,Klineo 和 ScreenAct 来自法国,Trialing 来自西班牙,DigitalECMT 来自英国。Klineo、ScreenAct 和 Trialing 是由私人公司开发的网络界面,部分需要创建账户,其临床试验数据通常来自与医院、行业的合作以及公共数据库。DigitalECMT 是英国癌症研究中心曼彻斯特研究所的学术开源项目,从 ClinicalTrials.gov 提取数据,并利用 KEGG 通路数据库解释分子改变,使用时需要定制设置和本地服务器安装。


输入数据与试验数量


4 种工具的共同输入数据是肿瘤类型和改变的基因或蛋白质名称,部分工具还纳入了其他描述符。平均而言,工具为每位患者建议 2.19 项试验,不同工具之间存在差异,ScreenAct 建议的试验数量最多(平均 3.22 项),DigitalECMT 最少(平均 1.54 项)。许多患者没有被建议任何试验,其中 Trialing 中无试验建议的患者比例最高(56%)。此外,工具建议的试验中,平均 19% 的真阳性试验不在中心进行,部分无中心试验的患者可被导向其他医院。


试验状态


研究人员联系了 51 项不在中心进行的临床试验的研究人员或发起人,其中 23 项确认了 ClinicalTrials.gov 上显示的状态,28 项未回复。对于中心进行的 75 项试验,研究发现 ClinicalTrials.gov 上显示招募的试验中,80.5% 实际在中心招募。因此,研究将 ClinicalTrials.gov 上的状态视为剩余患者试验状态的真实情况。


分类和排名性能


在 2164 个患者 - 试验对中,37.9% 的对符合选择标准,84.5% 的对研究的患者招募状态正确。4 种工具的平均精度为 0.33,平均灵敏度为 0.32,平均 AP@3 为 0.45,平均 nDCG@3 为 0.34,平均 FPscore@3 为 0.73。Klineo 表现最佳,其平均精度为 0.52,平均灵敏度为 0.50,平均 AP@3 为 0.66,平均 nDCG@3 为 0.54,平均 FPscore@3 为 0.78。研究还发现,当患者只有一个真阳性临床试验时,试验匹配工具的性能更差。


错误匹配的原因


研究详细分析了假阳性的原因,发现 Trialing 的假阳性试验中,59.8% 是由于入选标准错误,DigitalECMT 的这一比例为 93.5%。在导致错误的入选标准中,最常见的是分子改变类型,在 DigitalECMT 和 ScreenAct 的假阳性中,分别占 50.7% 和 28.5%。


大语言模型对性能的提升


研究人员使用大语言模型对 DigitalECMT 检索到的试验进行重新排名,发现大语言模型可以准确评估患者是否符合基因变异或特定分子改变的标准。在 34 例至少有一个合格试验且有机器可读基因组分析报告的患者中,DigitalECMT 的 NDCG@3 为 0.61,大语言模型重新排名后达到 0.64。


研究结论与讨论


本研究对 4 种公开可用的临床试验匹配工具进行了前瞻性评估,结果显示这些工具在匹配患者与肿瘤学临床试验方面具有一定潜力,但也存在局限性,约三分之一的结果有误。不过,这些工具可以使多达四分之一的患者在不同地点参与临床试验。研究指出,工具在分子改变方面存在常见局限性,解释了超过 30% 的假阳性试验。因此,专家对工具结果进行双重检查至关重要。研究还发现 Klineo 性能最佳,可能与其提供的基因变异选择数量较多有关。


此前的文献报道临床试验匹配工具性能较高,但本研究结果与之存在差异。这可能是由于之前研究中的工具是针对单一机构的数据和条件进行定制的,可能存在过适应问题,且未考虑临床试验的招募状态,同时本研究中评估的工具使用的标准数量有限。本研究再次证明,前瞻性分析对于评估决策支持系统对患者护理的实际影响至关重要。


尽管本研究存在一些局限性,如对临床试验招募状态的控制样本有限,未考虑试验中患者队列的招募状态等,但研究为临床试验匹配工具的改进提供了方向。研究人员建议治疗医生在使用这些工具的结果进行临床决策前应仔细评估,同时期望持续的技术改进能提高工具性能,增强用户信心,帮助患者更好地获取临床试验信息,推动精准肿瘤学领域的发展。


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号