编辑推荐:
为解决内镜下 Hill 分级评估胃食管瓣(GEFV)功能的一致性和准确性问题,研究人员开展基于深度学习构建 GEFV 形态 Hill 分级模型研究,结果显示该模型性能良好,有助于提高诊断效率和准确性。
《基于 Hill 分级构建人工智能辅助评估胃食管瓣膜功能系统:助力胃食管反流病精准诊疗》
在日常生活中,胃食管反流病(GERD)可太常见了,全球发病率在 8% - 33% 之间,它就像个 “调皮的小怪兽”,时不时给人们的消化系统带来麻烦。食管黏膜受伤,很大程度上和食管胃连接处(Esophagogastric Junction,EGJ)的解剖或生理缺陷有关,而胃食管瓣(Gastroesophageal Flap Valve,GEFV)作为 EGJ 的关键部分,在防止反流的 “战斗” 中起着重要作用。1996 年,Hill 等人提出了 Hill 分级,根据 GEFV 的内镜特征,把它分为 I - IV 级,I - II 级是正常的,III - IV 级则属于异常。这一分级在评估 GERD 手术或内镜治疗前后的情况时很关键,可医生们在使用 Hill 分级时却面临着挑战,评估的一致性不太好,就像不同人对同一幅画的理解有偏差一样,而且学习这个分级也需要花费不少时间。
为了解决这些问题,来自苏州大学附属常熟医院、南京中医药大学附属常熟医院等机构的研究人员展开了深入研究。他们运用深度学习(Deep Learning,DL)技术,基于 Hill 分类系统开发了一个四分类的深度学习模型 ——EfficientNet - Hill 模型,从模型开发、测试、可解释性分析到多终端部署,全方位进行探索。这项研究成果发表在《BMC Medical Informatics and Decision Making》上,为胃食管反流病的诊断带来了新的希望。
研究人员开展此项研究时,用到了几个关键技术方法。首先,收集了四个数据集,包含 1143 张 GEFV 图像和 17 个胃镜视频,这些数据来自苏州大学附属常熟医院等多家医院 。接着,对图像进行预处理和增强,利用基于卷积神经网络(Convolutional Neural Networks,CNN)和 Transformer 架构的预训练模型进行迁移学习。训练模型时,使用交叉熵损失函数和 Adam 优化器,还采用学习率调度策略。评估模型性能时,运用准确率、精确率、召回率、F1 分数等指标,并且用 McNemar 检验比较 AI 模型和内镜医师的诊断准确性。最后,将模型转换为 ONNX 格式,部署在多个设备终端上。
下面来看看具体的研究结果:
- 基线数据:研究纳入 1160 例患者的数据,其中男性占 56.7%,女性占 42.3%,平均年龄 63.2±26.5 岁。在 GERD 方面,28.5% 的患者没有症状,33.0% 被诊断为非糜烂性反流病(Non - erosive reflux disease,NERD),38.4% 患有反流性食管炎(Reflux esophagitis,RE)。Hill 分级中,I 级占 35.8%,II 级占 13.4%,III 级占 27.8%,IV 级占 22.9%。
- 深度学习模型性能比较:在自动 Hill 分类任务中,EfficientNet 表现最佳,测试平均准确率达到 82.03%,超过了 ResNet50(77.65%)和 Densenet121(81.77%)。Transformer 模型整体表现不如 CNN 模型,但其中的 SwinTransformer 在 Transformer 类别中平均准确率最高,为 50.86%。
- 模型训练和评估结果:EfficientNet - Hill 模型在训练过程中,损失函数不断下降并趋于稳定,经过 35 个 epoch 后,验证集平均损失达到 0.66,平均准确率达到 82.03%。
- 模型在外部测试集的预测性能:EfficientNet - Hill 模型在外部测试集上表现出色,Hill I 级和 IV 级的 AUC 值分别达到 0.994 和 0.980,展示了很强的判别能力。不过,模型也存在一些分类错误,比如 Hill III 级和 IV 级之间会出现误判,这可能是因为图像类别特征有重叠、存在反射、拍摄距离不当或图像模糊等原因。
- 深度学习与内镜医师诊断性能比较:EfficientNet 和 Densenet121 模型的准确率分别为 0.833 和 0.818,高于初级内镜医师(0.758),略低于高级内镜医师(0.865)。McNemar 检验表明,模型与初级内镜医师的分类性能有显著差异,与高级内镜医师无显著差异。而且,模型在图像识别速度上优势明显,仅需 6.6 - 8.6 秒,远远快于内镜医师(高级 557.2 秒,初级 607.2 秒)。
- 模型解释:通过 Grad - CAM 和 SHAP 技术对模型进行分析,Grad - CAM 生成的热图能显示模型决策的关键区域,SHAP 技术则能详细说明每个像素对预测结果的影响,让人们更了解模型的决策机制。
- 基于模型的视频预测和多终端部署:将模型转换为 ONNX 格式后进行多终端部署,能对胃镜视频中的 GEFV 进行实时自动 Hill 分级,平均推理速度超过 50 帧 / 秒(fps),在实际应用场景中效果良好。
研究结论和讨论部分意义重大。研究开发的 EfficientNet - Hill 模型在独立外部测试集中,准确率达到 83.32%,精确率为 84.81%,超过了初级内镜医师的表现,且推理速度极快,平均超过 50fps。这一模型有潜力帮助初级内镜医师更快掌握 Hill 分级技能,推动 Hill 分级在临床实践中的广泛应用。不过,研究也存在一些局限,比如数据集来自单一地区,可能影响模型的通用性;目前的金标准依赖内镜医师的共识诊断,存在观察者间的差异;模型基于静态图像训练,难以考虑蠕动和呼吸等动态因素。未来研究可以纳入多中心数据,整合客观生理测量方法,进一步优化视频分析,让 AI 辅助决策更加完善。总之,这项研究为胃食管反流病的诊断和治疗开辟了新的道路,让我们离精准医疗又近了一步。