编辑推荐:
本文聚焦乳腺癌计算病理学(CPath)的预后应用,阐述人工智能在医疗领域的发展,介绍 CPath 的技术方法、临床应用及潜力,分析其面临的挑战,如数据、技术、临床验证等问题,旨在推动其在乳腺癌诊疗中的广泛应用。
1. 人工智能在医疗领域的应用介绍
人工智能(AI)作为计算机科学分支,能执行需人类智能的任务,涵盖计算机视觉、自然语言处理(NLP)等领域。机器学习(ML)是 AI 关键部分,其中深度神经网络(DNN)由输入层、输出层和隐藏层构成,基于 DNN 的深度学习(DL)技术自 2016 年起成为医学图像分析前沿方法。DL 有监督学习和无监督学习两种常见方式,前者用标记数据集训练模型,后者在无标记数据中寻找模式,自监督学习(SSL)作为无监督学习子集,可自动生成标记输出。在 NLP 领域,Transformer 模型逐渐取代长短期记忆(LSTM)网络,大型语言模型(LLM)如 ChatGPT 基于 Transformer 架构,属于生成式 AI,而视觉 Transformer(ViT)将 Transformer 应用于计算机视觉任务,与 SSL 结合发展出新一代基础模型。
AI 在医疗领域应用广泛,尤其在癌症诊疗方面。自 1956 年达特茅斯研讨会诞生以来,AI 在癌症诊疗领域不断取得进展,如 2004 年首个计算机辅助诊断(CAD)工具获 FDA 批准用于乳腺钼靶检查,2011 年 IBM Watson 赢得 Jeopardy 比赛并于 2013 年应用于肿瘤学,2016 年谷歌 DeepMind 的 AI 在识别乳腺癌淋巴结活检方面超越病理学家。如今,AI 可整合电子健康记录(EHR)和可穿戴设备的真实数据,全面了解患者健康状况。在医学图像分析中,放射学率先应用 AI,如今其应用已拓展到病理学领域。
数字病理学将传统玻璃切片转换为数字图像(全切片图像,WSI),推动了病理学领域的变革。计算病理学(CPath)依赖数字病理学,通过多种算法增强 WSI 分析。
早期基于 ML 的研究依赖手工设计的特征,将 WSI 分割为组织、细胞和细胞核等有意义的生物结构,标注每个像素,提取人类可解释特征(HIF),如肿瘤面积、核形状等,用于预测临床结果。但这种方法需病理学家进行大量像素级标注。
如今 DL 算法可提供端到端解决方案,自动提取抽象特征。由于 WSI 尺寸大,需分割为小区域(补丁或切片)训练模型,可在补丁级或 WSI 级标注训练。多实例学习(MIL)因 WSI 级标签易获取而更受青睐,但传统方法缺乏上下文信息。近期开发的模型如 SparseConvMIL、TransMIL 和 GNN-MIL 等,可结合补丁空间上下文,成为考虑 WSI 全局上下文的前沿方法。不过,端到端 DL 模型存在需大量训练数据、缺乏可解释性和可理解性的问题,目前研究趋势是将 DL 与基于分割的 HIF 提取方法结合。
近期,结合 ViT 和 SSL 的组织病理学基础模型涌现,如 Virchow 模型在超 150 万张 H&E 染色数字切片上训练。基础模型可用于多种任务,与 MIL 架构结合能提升特征提取和预测性能,有时甚至超越特定任务训练的模型。但基准测试显示,这些模型在不同医疗中心数据差异下的稳健性不足。结合计算机视觉和 NLP 的工具也在发展,如基于 Virchow 的 PRISM 模型可生成临床报告,Modella.ai 的 PathChat 可辅助病理学家分析图像和交互。
在研究领域,数字切片促进了全球实验室的合作,推动了空间组学技术发展,为基础和转化研究提供关键空间上下文信息。像 MOSAIC(Owkin)和 HEST-1k 等项目收集大量肿瘤空间数据,有望带来新发现。数据挑战也激发了研究生态发展,如 Camelyon 16、BACH 和 TIGER 等挑战赛推动了乳腺癌研究,同时众多项目构建公开数据集,助力 AI 癌症研究。
在临床实践中,WSI 的应用改变了病理学家的工作流程,支持远程工作、便于共享切片获取第二意见、促进教学和知识传播。CPath 可辅助病理学家完成繁重任务,如有丝分裂和分级量化、淋巴结转移筛查、免疫组化定量(Ki67、ER、PR、HER2)等,多家公司已开发并验证相关 AI 诊断辅助工具,有望加快诊断速度,提高结果准确性和可重复性。CPath 还能为肿瘤学家提供病理学家难以获取的复杂信息,如预测患者预后、分子改变或治疗反应,随着 DL 技术发展,其逐渐达到临床应用所需证据水平。
2. 乳腺癌未满足的临床需求
乳腺癌是异质性疾病,可根据组织学亚型、激素状态、分子亚型、基因改变和临床分期等分类。精准医学针对不同亚型寻找可操作的生物标志物和检测方法,以解锁靶向治疗。例如,对于雌激素受体(ER)阳性、HER2 阴性的早期乳腺癌(ER+/HER2-EBC)患者,基因表达谱检测如 Oncotype DX、MammaPrint 等可指导辅助化疗决策;检测 germline BRCA1/BRCA2 突变,可让晚期或高危患者使用 PARP 抑制剂。但这些检测存在需组织样本、耗时久、费用高的问题,且只能满足部分临床需求,计算病理学有望提供更快速、经济的替代方案。
3. 乳腺癌预后的计算病理学
CPath 在乳腺癌预后预测方面具有超越病理学家的潜力,主要通过基于 DL 的端到端模型(自动提取特征但缺乏可解释性)和基于病理知识提取有意义 HIF 两种方法。
多种算法可预测患者生存临床终点,如总生存期(OS)、无转移生存期(MFS)等。研究发现,AI 检测的肿瘤浸润淋巴细胞(TILs)在三阴乳腺癌(TNBC)等多种乳腺癌亚型中与患者预后相关,高有丝分裂数、高组织学分级评分、肿瘤 - 间质比等因素也与患者不良生存相关。此外,有研究开发出可识别低风险导管原位癌(DCIS)特征的分析流程。许多研究致力于开发预测 ER+/HER2-EBC 患者预后的算法,探索替代基因表达谱检测的方法,如 Wahab 等人开发的基于 H&E WSI 的预后生物标志物、Boehm 等人开发的预测 Oncotype DX 复发评分的 Transformer 模型等,这些数字检测若有足够临床证据,将提高乳腺癌患者个性化医疗的可及性。
相关算法可预测患者对特定治疗的反应。在 TNBC 和 HER2 阳性乳腺癌患者中,AI 量化的 TILs 可预测新辅助治疗的病理完全缓解(pCR),还有模型基于肿瘤和核分割预测 HER2 + 和 TNBC 患者对新辅助治疗的反应,以及预测三阴乳腺癌患者新辅助化疗后的残留癌负荷(RCB)。
CPath 可直接从 H&E WSI 推断分子信息,因为肿瘤的表型特征有时能反映特定突变或基因组改变。已有模型可预测乳腺癌 H&E 图像中的 ER、PR、HER2 状态,以及 BRCA 基因突变、同源重组缺陷(HRD)、PD-L1 状态等。从 H&E 图像预测分子改变,有望替代部分免疫组化或复杂分子生物学检测,为资源有限国家提供新选择。
4. 计算病理学的挑战和局限
整合多种数据模态对开发临床有用的 AI 工具至关重要,但目前结合多种模态数据的乳腺癌研究较少。要实现多模态,需创建更多公开可用的大型多模态数据集。
高质量临床队列的组织学切片稀缺且昂贵,多数患者只有一张代表性切片,难以反映肿瘤异质性,建立大型开源数据存储库很关键。获取病理学家的标注困难且成本高,虽然半监督、弱监督和无监督学习可提供解决方案,但病理学家的专业知识对开发 AI 模型不可或缺,其标注应通过开源存储库共享。此外,缺乏多模态数据的大型队列阻碍了多模态整合研究,需开发在线平台提供综合数据,促进肿瘤学 AI 研究。针对罕见癌症小样本问题,联邦学习和群体学习等方法可在保护数据隐私的同时利用多方数据训练模型。
病理学实验室数字化面临成本高、报销机制不完善的问题,实验室需统一预处理流程,如样本大小、切片厚度、扫描仪类型和染色方法等,法国实验室 H&E 染色添加藏红花(HES)就影响了算法通用性。WSI 存储方式也是问题,云存储虽有优势,但存在网络依赖、数据主权和安全风险,混合存储是平衡方案。目前实验室数字化进程缓慢,无法支持数字检测广泛普及,可先采用集中式数字检测,未来实验室全面数字化和标准化后,可实现本地操作。
医学界和肿瘤学家对 CPath 等新技术接受度不高,因为治疗决策依赖检测技术,所以 CPath 解决方案应具备可解释性和可理解性,基于 HIF 的方法更易被接受。
随机对照试验(RCT)是确定生物标志物临床有效性的金标准,但在乳腺癌研究中实施困难,如 MINDACT、TAILORx 和 RxPONDER 试验耗时久、成本高。AI 发展迅速,RCT 完成时相关检测可能已过时。回顾性研究虽无法达到 RCT 的临床证据水平,但利用高质量存档样本、遵循特定规则进行的回顾性研究(“前瞻性 - 回顾性” 研究)可达 IB 级证据,如 ArteraAI 前列腺癌检测已被纳入指南并获得医保支付。
确立临床有效性后,还需证明预后生物标志物的临床实用性,这是转化研究从发现到临床应用的关键差距。单纯报告 AUC 或 C-index 难以吸引肿瘤学家,展示生物标志物指导药物调整和临床决策的潜力更有说服力,因此新研究应采用多学科方法,联合计算病理学家、病理学家和肿瘤学家。
许多 CPath 研究存在偏差,影响 AI 在病理学中的推广。主要偏差包括患者队列细节不明确、缺乏外部验证或训练测试数据混淆,数据来源少限制临床适用性,以及研究旨在临床应用却缺乏切片级性能评估。此外,模型性能评估指标差异大,且有研究显示乳腺癌亚型分类的 CPath 模型在不同人群中存在性能差异,需减轻人口相关偏差。遵循 CLAIM、STARD-AI 等报告规范,提高研究透明度,对获得足够临床证据很重要。
CPath 产品开发需获得监管机构批准,如欧洲的体外诊断医疗器械法规(IVDR)和美国的 FDA 批准,还需保证软件质量、集成到实验室 IT 基础设施并获得报销。EMPAIA 等项目召集相关利益者制定 AI 病理解决方案开发指南。专家认为满足 AI 应用监管要求耗时耗力,且 AI 取代病理学家工作可能引发伦理问题,如诊断错误时责任归属。病理学家和肿瘤学家应积极参与制定指南,推动 CPath 发展。
5. 结论
计算病理学有望彻底改变和普及癌症诊疗,在乳腺癌及多种癌症类型中发挥重要作用。尽管已取得进展,但仍面临诸多挑战,如需要高质量多模态数据集、整合多模态数据、建立强大的病理实验室技术基础设施、克服监管和伦理障碍等。要充分发挥 CPath 潜力,研究人员、临床医生、行业领导者和政策制定者需共同努力。建立和维护大型临床试验质量的开源多模态数据存储库,开发可解释模型,解决研究偏差并遵循标准报告规范,积极与监管机构合作制定指南,将推动计算病理学在乳腺癌诊疗中的应用,改善全球患者预后。