基于苏木精 - 伊红染色切片的机器学习预测乳腺癌 HER2低表达:为精准诊疗开辟新径

【字体: 时间:2025年04月19日 来源:Breast Cancer Research 6.1

编辑推荐:

  在乳腺癌诊疗中,HER2状态评估意义重大。为解决传统 HER2检测难题,研究人员开展基于苏木精 - 伊红(HE)染色切片的机器学习预测 HER2表达研究。结果显示,其 AI 模型表现优异且有强解释性,为 HER2评估提供新方法,助力精准诊疗。

  在当今癌症研究领域,乳腺癌如同一个 “顽固的敌人”,严重威胁着全球女性的健康。2022 年的数据显示,乳腺癌成为全球女性中最常见的癌症,也是癌症死亡的主要原因之一,在中国,其发病率也居高不下,患病女性数量众多且死亡病例占全球约 18% 。在乳腺癌的诊疗过程中,人类表皮生长因子受体 2(HER2 )是一个极为关键的角色,它既是重要的预后指标,也是治疗的关键靶点。传统观念认为,只有 HER2阳性(HER2 IHC 3+ 或 HER2 IHC 2+ 且 HER2基因扩增)的乳腺癌患者能从 HER2靶向治疗中获益,如曲妥珠单抗、帕妥珠单抗等药物的使用。但近年来,新的研究发现,HER2低表达(HER2 IHC 1+ 或 2+ 且非扩增)的乳腺癌患者对新一代 HER2靶向抗体 - 药物偶联物(ADCs)也有一定的治疗反应,这一发现使得 HER2低表达群体受到关注,准确识别这一群体变得至关重要。
然而,目前用于评估 HER2状态的传统免疫组化(IHC)方法存在诸多问题。一方面,该方法需要耗费大量时间和资金;另一方面,对于发展中国家的许多基层医院来说,技术操作难度较大。而且,HER2表达的判断容易受到多种因素影响,如肿瘤内 HER2的异质性、病理学家的主观差异等,导致 HER2低表达的识别存在困难,误诊率较高。为了解决这些难题,来自中国科学技术大学第一附属医院、合肥工业大学、北京航空航天大学等机构的研究人员展开了一项具有创新性的研究。他们利用机器学习技术,基于苏木精 - 伊红(HE)染色切片对乳腺癌 HER2表达进行预测,相关研究成果发表在《Breast Cancer Research》杂志上。
在这项研究中,研究人员采用了多种关键技术方法。首先,他们收集了两个重要的样本队列,一个是来自中国科学技术大学第一附属医院的 350 例乳腺癌患者样本(USTC - BC 数据集),另一个是从 TCGA 数据库中随机获取的 502 例样本(TCGA - BRCA 队列) 。接着,研究人员对样本进行 HE 染色,并通过全切片成像扫描仪获取全切片图像。在模型训练方面,运用弱监督学习的核注意力变换器(KAT)方法,结合病理学语言 - 图像预训练网络(PLIP)提取图像特征,同时采用五折交叉验证和早停法来提高模型的稳定性和泛化能力。
研究结果主要从以下几个方面展开:
  1. 模型性能评估:研究人员将自己开发的 AI 模型与当前先进的 SlideGraph + 方法进行对比,在 USTC - BC 数据集和 TCGA - BRCA 数据集上,分别从准确率(ACC)、受试者工作特征曲线下面积(AUC)和 F1 分数等指标进行评估。结果显示,在 USTC - BC 数据集上,AI 模型的 ACC 为 0.556,AUC 为 0.795,F1 分数为 0.556,相较于 SlideGraph + 方法,ACC 提高了 6.3% ,AUC 提高了 2.7% ,F1 分数提高了 6.3% ;在 TCGA - BRCA 数据集上,AI 模型的 ACC 为 0.389,AUC 为 0.688,F1 分数为 0.389 。此外,在外部数据集测试实验中,以 TCGA - BRCA 数据集作为外部测试集,AI 模型的各项指标也优于 SlideGraph + 方法,这表明 AI 模型在不同数据集上都能有效预测 HER2分数。
  2. 模型的可解释性分析:AI 模型的可解释性对于理解其预测结果至关重要。研究人员通过注意力热图来可视化 AI 模型的结果,将 AI 模型对 HE 切片生成的注意力热图与相应的 IHC 切片染色模式进行对比。结果发现,在 HER2阳性病例中,热图中橙色和红色区域对应的是高 DAB 密度区域,表明模型关注的区域与 HER2蛋白表达区域相关;在 HER2阴性病例中,大部分组织区域显示为低 DAB 密度。这一结果支持了使用 DAB 密度作为 HER2状态预测潜在特征的观点,也证明了 AI 模型能够从 HE 切片中识别出 HER2蛋白表达区域。
  3. 错误率分析:研究人员计算了在 USTC - BC 数据集上不同阈值设置下的假阳性率和假阴性率,结果显示两者均较低(<0.25) ,这表明通过合理设置决策策略,可以有效控制可能影响研究泛化性的两类统计错误。
    研究结论与讨论部分指出,该研究开发的 AI 模型能够直接通过 HE 图像预测 HER2表达,具有较强的可解释性,在 HER2低表达乳腺癌的预测中表现出较好的准确率。这一成果为 HER2状态的人工智能评估提供了新方法,有助于更经济、高效地进行 HER2评估,潜在地辅助病理学家提高诊断准确性,为伴随诊断评估生物标志物提供帮助。然而,研究也存在一些局限性和挑战。例如,数据集样本量不足且存在类别不平衡问题,不同医疗中心的样本制备、染色和数字化技术存在差异,病理注释的主观性也会影响模型训练和验证等。未来的研究需要针对这些问题进行改进,如纳入多中心数据、收集更多训练数据、探索多模态数据整合等,以提高模型的性能和临床适用性。总之,这项研究为乳腺癌 HER2状态评估提供了新的思路和方法,尽管还有待完善,但在精准诊疗领域展现出了巨大的潜力,有望为乳腺癌患者带来更好的治疗方案和预后。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号