基于信息瓶颈多模态网络的糖尿病视网膜病变多色成像智能诊断研究
《Scientific Reports》:Detection of diabetic retinopathy using multicolor image by multimodal network incorporating information bottleneck (MNIIB)
【字体:
大
中
小
】
时间:2025年12月15日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对糖尿病视网膜病变(DR)早期诊断难题,创新性地提出融合信息瓶颈(IB)理论的多模态网络(MNIIB),通过多色成像(MCI)技术实现DR的精准分类。研究团队利用蓝光反射(BR)、绿光反射(GR)、红外反射(IR)和组合伪彩色(CP)四种模态图像,构建了能够有效提取跨模态共享特征的深度学习框架。实验结果表明,该方法在内部数据集上达到95.9%的分类准确率,显著优于传统单模态方法,为DR的自动化筛查提供了可靠的技术支持。
在全球范围内,糖尿病视网膜病变(DR)已成为工作年龄人群视力丧失的主要原因,其早期阶段往往没有明显症状,这使得早期检测和干预变得尤为重要。传统的彩色眼底图像虽然包含丰富的色彩信息,但在检测视网膜萎缩和黄斑病变方面存在局限。随着糖尿病患者的不断增加,迫切需要比人工分级更高效的诊断方法。
多色成像(MCI)作为海德堡工程公司开发的先进技术,结合了扫描激光检眼镜与光学相干断层扫描(OCT)和荧光素血管造影技术。该技术能够提供对视网膜各层次的病理特异性对比,超越传统彩色眼底照相的能力。MCI通过不同波长的共配准反射图像,分别突出显示视网膜血管结构(GR图像)、浅表视网膜层(BR图像)和视网膜色素上皮层(IR图像),最终合成直观的CP图像,为DR诊断提供全面的临床概览。
然而,现有深度学习(DL)方法在MCI分析中的应用仍存在研究空白,特别是在利用其多模态特征表示方面。传统的单图像处理方法难以充分挖掘MCI中不同模态图像间的复杂相互作用,这限制了诊断准确性的进一步提升。
为解决这一挑战,宋静琪等人开展了题为"Detection of diabetic retinopathy using multicolor image by multimodal network incorporating information bottleneck(MNIIB)"的研究,论文发表于《Scientific Reports》。该研究创新性地提出了一种融合信息瓶颈理论的多模态网络框架,专门针对MCI的DR分类任务设计。
i, Zj) means MI between Ziand Zj. Dkldenotes the kullback-leibler divergence.'>
研究方法的核心是MNIIB框架,该框架采用两阶段策略:首先使用ResNet18作为骨干网络从四种模态图像(BR、GR、IR、CP)中提取高级语义特征,然后通过多层感知机(MLP)学习各模态的独特表示。关键创新在于引入信息瓶颈(IB)理论来分析模态间的互信息(MI),通过优化KL散度(Kullback-Leibler divergence)和互信息的平衡,有效压缩冗余数据并增强诊断相关特征的提取。研究采用来自480名患者的1920张MCI图像数据集,通过数据增强技术扩展至24248张图像,按照70%/20%/10%的比例划分训练集、验证集和测试集。
研究团队回顾性收集了1920张来自480名患者的MCI图像,患者年龄介于31-81岁(平均58.7±11.2岁),所有图像均使用海德堡视网膜血管造影仪在同一临床中心采集。数据集包含30°和55°两种视网膜视野图像,覆盖DR的所有阶段。通过翻转、调整大小、添加噪声和旋转等预处理技术,图像数量扩展至24248张,由眼科专家审核确保符合诊断标准。
MNIIB模型在二元DR分类任务中表现出色,准确率达到0.959,精确度、F1分数和AUC分别达到0.966、0.956和0.962。与使用其他成像模态的研究相比,MNIIB在MCI上的性能具有竞争力。特别值得注意的是,与同样使用MCI和IB原理的Song方法相比,MNIIB的准确率提高了1.6%,这归因于其独特的跨模态关系建模方式。
通过对比IB机制与早期融合、晚期融合等策略,研究发现IB+模型在所有关键指标上均表现最佳,比IB-基线准确率提高1.6%,AUC提高0.5%。这表明IB机制能够有效保留跨模态共享的任务相关信息,同时丢弃冗余细节。
研究表明,当K值设置为256时,网络在所有DR分类任务中达到近乎最佳性能。K值过大会导致输入表示过度丰富,可能包含无关细节;而过小则会过度压缩输入表示,丢失有价值数据。
参数δ的实验影响被仔细评估,结果显示当δ=0.25时性能达到峰值。这表明存在一个最佳平衡点,能够在压缩冗余信息与保留DR预测特征之间实现最优权衡。
研究结论表明,MNIIB架构成功实现了DR的多模态智能诊断,通过IB理论有效挖掘了MCI中不同模态图像间的互补信息。当同时使用所有四种模态时,模型性能达到最佳状态,验证了多模态融合的价值。Grad-CAM可视化进一步证实了模型关注区域与临床相关解剖结构的一致性。
讨论部分指出,虽然研究取得了令人印象深刻的成果,但仍存在一些局限性:多模态框架中各模态的具体贡献尚不明确;当前方法简单拼接多模态特征,缺乏对模态与诊断标签关系的深入探索;模型训练仅基于图像数据,未充分利用临床记录等有价值信息;由于公开MCI数据集的稀缺,模型的外部验证受限。
未来研究方向包括深入探索各模态的具体贡献、分析模态与标签的复杂相互依赖关系、整合多样化数据类型以丰富训练数据集。研究人员计划收集配对的眼底和OCT图像数据集,将IB融合框架的核心原理适配到更广泛可用的多模态数据上。同时,将引入可解释AI机制提供更细粒度的病变级解释,并进行多中心临床验证以确保模型的泛化能力。
该研究的重要意义在于为DR的早期诊断提供了创新的多模态分析框架,通过信息瓶颈理论有效解决了跨模态特征融合的挑战,为眼科人工智能诊断技术的发展开辟了新途径。MNIIB框架在复杂临床任务中展示出巨大潜力,如多类DR严重程度分级和多种眼病同时检测,有望在未来临床应用中发挥重要作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号