编辑推荐:
在口腔上皮发育异常(OED)诊断中,传统分级系统存在主观性强、重复性差的问题。研究人员开展基于视觉 Transformer(ViT)的 OED 病理图像分级研究,结果显示 ViT 模型在 3 类和 4 类场景下分类准确率高,为 AI 辅助诊断 OED 提供了有力支持。
在口腔医学领域,口腔上皮发育异常(Oral Epithelial Dysplasia,OED)就像一颗隐藏的定时炸弹,时刻威胁着人们的口腔健康。OED 是一组口腔上皮出现各种组织学和临床改变的病变,别看它在一个人的生命周期中很少恶变成癌症,但约 80% - 90% 的早期口腔鳞状细胞癌(Oral Squamous Cell Carcinomas,OSCC)都源于它。目前,评估疑似组织活检的组织病理图像是诊断和分级 OED 的金标准方法,世界卫生组织(World Health Organization,WHO)2022 年推出的 “thirds” 分级系统和 “binary” 分级系统是常用的评估工具 。然而,这看似可靠的金标准却存在不小的漏洞。不同观察者在使用这些分级系统时,存在显著的差异,其主观性使得诊断结果难以保证准确性和一致性,就好比不同的人对同一幅画的理解各不相同。
为了解决这一难题,来自伊朗多所大学的研究人员决心探索新的方法。他们开展了一项基于视觉 Transformer(Vision Transformer,ViT)深度学习算法的研究,旨在对 OED 和健康口腔上皮组织病理图像进行分类,并与传统的卷积神经网络(Convolutional Neural Network,CNN)模型(VGG16 和 ConvNet)进行比较。该研究成果发表在《BMC Cancer》上,为口腔医学诊断带来了新的曙光。
研究人员为开展此项研究,采用了多种关键技术方法。在数据获取方面,他们从德黑兰医科大学口腔颌面病理科档案库中收集了大量样本,并结合两个在线数据库,丰富了数据集。图像预处理时,对图像进行旋转、裁剪、分割等操作,将其转化为适合模型处理的格式。模型构建上,选用预训练的 ViT - B16 模型,在 NVIDIA RTX 3070 GPU 等硬件支持下进行训练和微调,并与 VGG16、ConvNet 模型对比。同时,使用了数据增强技术扩充训练数据,减少过拟合风险。
研究结果主要从以下几方面展开:
- 数据处理成果:经过图像预处理,得到了不同风险等级和组织类型的大量图像补丁,如 2,545 个低风险、2,054 个高风险、726 个轻度、831 个中度、449 个重度和 937 个正常组织补丁。
- 模型性能表现:ViT 模型展现出优异的分类性能。在 3 类场景(低风险、高风险和正常上皮组织)下,其准确率达到 94%,而 VGG16 为 86%,ConvNet 为 88%;在 4 类场景(WHO 分级系统加上正常组织,即轻度、中度、重度和正常)下,ViT 模型准确率高达 97%,VGG16 仅为 79%,ConvNet 为 88%。
- 模型训练情况:观察模型训练和验证过程发现,训练损失稳步下降,表明模型有效学习,但在第 9 个 epoch 左右,验证损失开始与训练损失出现轻微偏离,验证准确率也趋于平稳,而训练准确率仍略有上升,这暗示可能出现了过拟合现象。不过,通过多种定量和定性评估方法综合判断,模型整体表现稳定,泛化能力良好。
- 模型关注区域:从 ViT 生成的注意力图可以看出,模型能够聚焦于口腔上皮发育异常分级相关的上皮结构改变,这为模型的诊断准确性提供了有力的视觉证据。
研究结论和讨论部分意义重大。该研究首次评估了 ViT 模型对 OED 样本的分类效率,结果显示其在 4 类和 3 类场景下均成功对 OED 进行分类,且准确率显著高于传统 CNN 模型。这一成果表明 ViT 模型在 OED 诊断方面具有巨大的潜力,有望成为口腔颌面病理学家的得力助手,辅助甚至独立完成 OED 的检测和分级工作,提高诊断的准确性和客观性。同时,也为人工智能在医学影像分析领域的应用开辟了新的道路,让人们看到了人工智能技术为医学诊断带来变革的希望。不过,研究也存在一定的局限性,如样本量相对较小,这可能对深度学习算法的结果稳健性产生一定影响。未来的研究可以进一步扩大样本量,探索更多优化模型性能的方法,推动人工智能在口腔医学诊断中的广泛应用,为守护人们的口腔健康提供更强大的技术支持。