编辑推荐:
为解决传统诺丁汉分级系统(NGS)依赖主观判断、耗时且存在观察者间差异的问题,研究人员开展利用基础模型预测乳腺癌数字病理诺丁汉分级的研究。结果显示模型能有效预测,该研究为乳腺癌评估提供高效可重复工具。
在全球范围内,乳腺癌已然成为女性健康的一大 “劲敌”,其发病率持续攀升,严重威胁着女性的生命健康。目前,诺丁汉组织学分级(Nottingham histologic grade)是评估乳腺癌严重程度和预测预后的关键指标,然而传统的分级方式却存在诸多 “痛点”。它高度依赖病理专家的主观判断,不仅耗时费力,而且不同专家之间的判断差异较大,这就好比让不同的人去评判一幅画的好坏,标准难以统一,导致分级结果的准确性和可靠性大打折扣。
为了突破这些困境,来自韩国加图立大学(Gachon University)、美国斯坦福大学医学院(Stanford University School of Medicine)和韩国亚洲大学医学院(School of Medicine, Ajou University)的研究人员联合开展了一项极具创新性的研究。他们试图借助人工智能(AI)的强大力量,开发出一种能够精准预测乳腺癌诺丁汉分级的模型。这项研究成果发表在《Breast Cancer Research》上,为乳腺癌的诊断和治疗带来了新的曙光。
研究人员开展此项研究时,主要运用了以下几种关键技术方法:首先,从癌症基因组图谱(The Cancer Genome Atlas,TCGA)项目中获取了 1050 例浸润性乳腺癌患者的数据,同时引入了外部验证队列 —— 乳腺癌亚型数据集(BReAst Carcinoma Subtyping,BRACS)。其次,利用基于 ViT-L/16 架构且由 DINOv2 训练的 UNI 基础模型进行特征提取,并使用聚类约束注意力多实例学习(Clustering-constrained Attention Multiple Instance Learning,CLAM)模型进行组织切片分割。最后,采用注意力挑战多实例学习(Attention-Challenging Multiple Instance Learning,ACMIL)方法构建预测模型。
下面来看具体的研究结果:
- 患者特征:对 521 例有诺丁汉分级记录和 597 例无记录的患者数据进行分析,发现两组患者在年龄、肿瘤分级、临床分期、雌激素受体(ER)和人表皮生长因子受体 2(HER2)状态等方面存在差异。有记录组患者的中位年龄为 58 岁,无记录组为 59 岁,且肿瘤分级分布也有所不同。
- 模型性能比较与选择:在多种多实例学习模型中,基于 UNI 预训练特征的 ACMIL 模型表现最佳。在 TCGA-BRCA 数据集的测试集中,其 F1分数达到 0.731,多类平均 AUC 为 0.835;在 BRACS 数据集的外部验证中,也展现出良好的预测能力。
- 生存分析:通过比较病理分级和模型预测分级的生存情况,发现模型预测的 5 年生存率与实际临床结果相符。例如,模型预测 1 级患者的 5 年生存率为 79.9%,2 级为 75.7%,3 级为 59.1%,且差异具有统计学意义(p<0.05)。
- 可视化与聚焦分析:利用 ACMIL 模型生成的热图,能够直观地展示不同诺丁汉分级的组织学特征,且与实际病理结果高度吻合,得到了专家病理学家的认可。
- 基因本体分析:对诺丁汉 3 级乳腺癌组织的基因本体分析表明,细胞分裂、染色体分离和有丝分裂细胞周期等通路显著富集,反映了肿瘤的侵袭性和快速生长特性。
研究结论和讨论部分指出,该 AI 模型能够准确预测诺丁汉组织学分级,有效解决了传统分级方式的局限性,显著提高了乳腺癌诊断的效率和一致性。同时,该模型在预测患者预后方面也具有重要价值,为临床决策提供了有力支持。
然而,研究也存在一些不足之处。数据方面,TCGA 数据的随访时间、治疗信息和肿瘤亚型细节有限,且数据存在不平衡问题,1 级数据相对较少。模型方面,在区分某些诺丁汉分级时存在误判,尤其是 1 级和 2 级之间,在独立数据集上对中级肿瘤的判别能力较弱。此外,研究部分依赖现有方法和模型,限制了原创性。尽管如此,该研究为乳腺癌的诊断和治疗开辟了新的道路,未来通过扩大样本量、改进模型等措施,有望进一步提升其临床应用价值,为全球乳腺癌患者带来更多的希望和福祉。