编辑推荐:
为解决 BI-RADS 3 病变良恶性难区分及数据不均衡问题,研究人员开展深度学习分类模型研究,结果显示该方法可提高检测率,有助于早期诊断。
一、研究背景
在全球范围内,乳腺癌如同隐匿在女性健康道路上的 “幽灵”,严重威胁着女性的身心健康,是女性群体中最为常见的恶性肿瘤之一。早期发现并及时治疗乳腺癌,犹如在黑暗中点亮一盏明灯,能显著改善患者的预后情况,有效降低死亡率。因此,早期筛查与治疗成为对抗乳腺癌的关键防线。
在众多乳腺癌筛查手段中,超声筛查成像凭借其独特优势,在许多亚洲国家成为主要的筛查方式。它就像一个 “透视眼”,能详细呈现乳房内部的信息,尤其是对乳腺致密的女性,大大提高了乳腺癌的检出率。而乳腺影像报告和数据系统(BI-RADS)则是超声成像中用于区分癌症阶段的 “标准尺”,从 1 类(无癌症迹象)到 6 类(高度疑似癌症),为医生提供了清晰的判断依据。
然而,BI-RADS 3 类病变却像是筛查道路上的 “绊脚石”。这类病变恶性概率低于 2%,按照常规建议只需短期随访。但问题在于,其良恶性病变特征极为相似,数据分布极度不均衡,恶性样本占比极少。这使得在乳腺癌筛查中,检测 BI-RADS 3 类病变的恶性情况变得异常困难,即使是经验丰富的医生也可能 “看走眼”,容易导致漏诊或误诊,延误患者的治疗时机。
随着科技的发展,人工智能(AI)逐渐崭露头角,为医疗领域带来了新的希望。深度学习(DL),尤其是深度卷积神经网络(DCNNs),更是展现出独特的优势。它能够像一个不知疲倦的 “数据侦探”,从大量医学图像中自动学习复杂的特征表示,无需人工预先设定特征,减少了专家干预。尽管 DL 在乳腺超声图像分类方面已展现出一定潜力,但专门针对 BI-RADS 3 类乳腺病变的良恶性分类研究却寥寥无几。主要原因在于,BI-RADS 3 类良恶性病变形态重叠严重,如同双胞胎难以分辨;而且恶性样本稀缺,导致训练分类模型时容易出现过拟合问题,模型在新数据集上的泛化能力受限。因此,如何突破这些困境,训练出高效的 BI-RADS 3 类乳腺病变良恶性分类模型,成为亟待解决的难题。
为了攻克这一难题,来自西南大学计算机与信息科学学院以及第三军医大学西南医院乳腺甲状腺外科的研究人员,踏上了探索之旅。他们的研究成果发表在《BMC Cancer》杂志上,为早期乳腺癌的诊断带来了新的曙光。
二、研究方法
研究人员开展了一项回顾性研究,经陆军军医大学第一附属医院伦理委员会批准,豁免了患者的知情同意。研究数据来自西南医院(SW)和唐山医院(TS)。从 SW 的 8670 例超声诊断为乳腺癌的患者中,筛选出 742 例患者的 847 个病变图像;从 TS 的 2596 例患者中,筛选出 354 例患者的 428 个病变图像。这些图像均包含 B 超和彩色多普勒图像,且恶性样本经活检确认,良性样本通过活检或三年随访无显著变化确认。
研究人员提出了一种两阶段增强方法,包括恶性特征增强和数据增强。在特征增强阶段,利用 BI-RADS 4A 恶性病变来提取更具判别力的特征。因为 BI-RADS 4A 与 BI-RADS 3 相邻,恶性可能性在 2%-10%,训练时加入 BI-RADS 4A 癌症样本,有助于模型学习恶性特征。在数据增强阶段,使用生成对抗网络(GAN)中的 CycleGAN 模型,分别训练 Bmode-GAN 和 Doppler-GAN,实现 BI-RADS 3 和 BI-RADS 4A 之间的图像相互转换,从而扩充 BI-RADS 3 恶性病变的数据。
同时,研究人员开发了基于双分支 ResNet50 的深度学习分类模型 Dual-ResNet50。在三种不同训练条件下评估模型性能:DR-B(仅在原始数据上训练)、DR-F(在原始数据和特征增强数据上训练)、DR-FD(在原始数据、特征增强和数据增强数据上训练)。此外,还将 DR-FD 模型与四位有十年以上诊断经验的放射科医生的诊断性能进行对比,并利用 Grad-CAM 工具生成热图,增强模型的可解释性。
三、研究结果
3.1 CycleGAN 模型生成结果
通过两个预训练的 CycleGAN 模型,成功生成了 209 对合成的 BI-RADS 3 恶性病变图像(包括 B 超和彩色多普勒图像)。从视觉上看,生成的图像有效保留了 BI-RADS 4A 的病变信息,同时在颜色、亮度和对比度等方面呈现出 BI-RADS 3 的特征,合成图像的质量和变化符合预期,但仅用于训练,不用于临床诊断。
3.2 Dual-ResNet50 模型增强后的性能
DR-FD 模型在区分 BI-RADS 3 恶性病变方面表现出色,在内部测试集(SW 队列)中的受试者工作特征曲线下面积(AUC)达到 0.881(95% 置信区间:0.830 - 0.921),外部测试集(TS 队列)中的 AUC 为 0.880(95% 置信区间:0.847 - 0.910)。相比之下,DR-B 和 DR-F 模型的 AUC 较低。在敏感性方面,DR-FD 模型在 SW 队列中达到 77.8%(18 个恶性病例中正确检测出 14 个),在 TS 队列中为 71.4%(7 个恶性病例中正确检测出 5 个),远高于 DR-B 和 DR-F 模型。此外,双模态(B 超和彩色多普勒)信息融合进一步提高了诊断准确性。
3.3 DR-FD 模型与放射科医生的比较
DR-FD 模型在 AUC、敏感性方面表现优异,尤其是在识别恶性病变患者方面。四位放射科医生在 SW 队列中的平均 AUC 为 0.728(95% 置信区间:0.663 - 0.786),敏感性仅为 33.3%;在 TS 队列中的平均 AUC 为 0.696(95% 置信区间:0.650 - 0.740),敏感性为 14.3%。虽然放射科医生特异性较高,但容易漏诊恶性病变,而 DR-FD 模型有潜力提醒医生关注高风险病变。
3.4 DR-FD 模型的可解释性
利用 Grad-CAM 生成的热图显示,B 超图像的热图主要覆盖病变区域,关注乳腺肿块的形态和声学特征;彩色多普勒图像的热图主要覆盖血管丰富区域,关注血流信息。当医生初始评估与 DR-FD 模型预测不一致时,热图可为进一步分析提供帮助,确保可疑病变得到二次关注。
四、研究结论与讨论
研究表明,两阶段增强方法能够有效提升深度学习分类模型对 BI-RADS 3 病变中乳腺癌的检测能力。通过特征增强,利用 BI-RADS 4A 的恶性特征帮助模型学习;通过数据增强,缓解了数据不均衡问题,使 DR-FD 模型在检测 BI-RADS 3 恶性病变方面表现出色。
这一研究成果意义重大,它为早期乳腺癌的诊断提供了更有力的工具。对于 BI-RADS 3 类病变,医生可以借助该模型更准确地判断病变的良恶性,对低风险病变建议随访观察,对高风险病变及时进行复查或活检,从而促进早期确诊乳腺癌,为患者争取宝贵的治疗时间。
然而,该研究也存在一些局限性。数据仅来自两家医院,可能无法代表其他地区和人群的特征;仅整合了 B 超和彩色多普勒图像,未充分考虑患者病史、临床表现等多源信息;且未明确模型对临床诊断是否有积极影响。
尽管如此,这项研究为后续研究指明了方向。未来,研究人员计划将该增强方法应用于其他恶性样本稀缺的医学领域,探索其通用性;同时,通过多模态深度学习框架,整合更多临床信息,进一步提升诊断性能,为癌症的早期诊断和治疗带来更多希望。