人工智能模型重新定义了乳腺癌的TIL评分,但在现实验证中面临挑战

【字体: 时间:2024年11月28日 来源:news-medical

编辑推荐:

  分析肿瘤浸润淋巴细胞的人工智能模型有望预测三阴性乳腺癌的预后,但外部验证显示了关键的性能差距。

  

研究人员探讨了人工智能驱动的肿瘤浸润淋巴细胞(TIL)评估如何在精度上优于人工方法,但强调需要强大的数据集来确保临床实践的可靠性。

在最近发表在《ecclinicalmedicine》杂志上的一项研究中,研究人员比较了基于人工智能(AI)的肿瘤浸润淋巴细胞(TIL)评估模型在三阴性乳腺癌(TNBC)中的预后和分析性能。

在过去的几年里,早期乳腺癌的新治疗方法取得了前所未有的发展。然而,迫切需要系统地实施基于生物标志物的风险分层,以防止治疗不足或过度,并选择可能从额外治疗中受益的患者。

此外,浸润肿瘤间质的淋巴细胞数量,即间质til (sTILs),是早期TNBC的预后特征。虽然已经发布了标准化sTIL评估的指南,但观察者之间的差异是不可避免的,并且TIL评分在捕捉肿瘤微环境(TME)复杂性的能力方面受到限制。

这强调了对先进的自动化方法的需求,这些方法可以解决变异性,并为肿瘤-免疫相互作用提供更深入的见解。此外,人工智能模型在不同成像平台和数据集上的性能仍然是临床应用的关键考虑因素。

关于研究

在本研究中,研究人员比较了10种基于ai的TIL评估模型的预后和分析能力。2012 - 2016年间,106例女性原发性浸润性TNBC肿瘤的全组织切片(WTS)。79例患者92张载玻片用于模型训练和内测。此外,使用215名TNBC患者(来自另一个队列)的WTS和临床数据进行外部验证。

使用QuPath平台构建自动化TIL评分算法。来自三个家族的模型,神经网络(NN), k近邻(KNN)和随机树(RT),在10张图像的子集上进行训练。其他训练场景包括增加患者样本的数量(20、30,等等)。每个方法用“MN”表示,其中M是方法的名称(例如KNN), N是训练样本的数量。

每张图像包含约450个细胞的人工注释,其中至少有150个淋巴细胞和150个肿瘤细胞。其余细胞为基质细胞或其他亚型。研究人员采用“人在循环”策略进行模型训练,包括迭代人工注释和准确性检查,以达到最佳分类器性能。该方法保证了模型准确地反映了TILs的异质性。

除了这些模型之外,还包括三种先进的深度学习方法——cellvit、HoverNet和Abousamra的模型——以提供最先进技术的比较分析。除Abousamra的模型外,所有模型的数字TIL分数均使用eastil公式计算。

对于Abousamra的模型,浸润癌区域预测为淋巴细胞斑块的百分比被用作TIL评分。采用Spearman相关系数确定病理学家手工sTIL评分与数字sTIL评分的相关性。

单因素和多因素Cox回归评估年龄、组织学分级、淋巴结状态和肿瘤大小调整后TIL评分的预后价值。HoverNet和CellViT模型在PanNuke数据集上进行了预训练,该数据集包含19种组织类型的200,000多个细胞核,使这些模型能够实现细粒度的细胞分割和分类。

发现

该团队开发了7种模型(KNN10、NN10、RT10、NN20、NN30、NN40和NN50)。在内部验证集中,RT10和KNN10的TIL分数分布最广,而NN模型的分布具有可比性和一致性。相比之下,CellViT和HoverNet的分布最窄,而手动评分和Abousamra的模型分布最广。数字sTIL评分与手动sTIL评分的相关性因模型而异。

RT10在有限样本下训练的模型之间的相关性最好;KNN10表现出中等相关性,NN10表现出稍好的相关性。增加样本数量会逐渐增加相关性。CellViT和HoverNet的相关性次之。然而,内部和外部验证集之间出现了显著差异,所有方法在外部队列中的表现都有所下降。

成像平台的差异——耶鲁大学的徕卡Aperio系统与SCAN-B的NanoZoomer平台——可能是造成这些差异的原因。在外部验证队列中,所有方法的TIL评分分布都要窄得多;所有相关系数值均减小。

RT10的相关性最好,KNN10的相关性最低。此外,与内部队列不同,增加样本量并没有提高相关性。此外,在外部验证队列中,以侵袭性无病生存期(IDFS)为临床终点,研究了模型与患者结局的关联。

IDFS定义为从诊断到因任何原因或乳腺癌相关事件死亡的时间。在单变量Cox回归分析中,除Abousamra模型外,其他模型均显示显著结果,且风险比相似且重叠。

尽管CellViT和Abousamra的模型结果不显著,但多变量分析对所有模型都产生了相似的结果。该研究指出,考虑到不同方法分布的可变性,连续TIL评分比基于截止点的评分提供了更可靠的预后分析。

结论

总之,研究人员评估了10种基于人工智能的TIL模型对IDFS的预后和分析能力。开发了7个模型,其中3个是预训练和验证的模型。

关于分析性能,即使在更多样本上训练,人工智能模型也实现了中等到良好的相关性,尽管类似架构的模型(例如,NN10-50)具有高相关性。尽管如此,该研究强调了内部和外部绩效之间持续存在的差距,强调了严格的外部验证的必要性。

他们在外部团队中的表现有所下降;增加训练样本量并没有提高相关性。然而,数字TILs的预测潜力对几乎所有模型都是显著的,即使对训练样本量较小的模型也是如此。

该研究还强调,对于临床应用,人工智能模型必须提供透明度和可解释性,使临床医生能够理解和信任预测。这包括在分割输出中直接检查错误分类细胞的能力。

总的来说,研究人员强调了大型、多样化、多中心数据集作为标准化和验证人工智能模型的基准的重要性。这些数据集对于确保临床兼容性和消除与模型特异性偏倚相关的风险至关重要。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号