跨模态双向监督的病理图像识别通用视觉-语言模型研究

【字体: 时间:2025年08月09日 来源:Pattern Recognition 7.6

编辑推荐:

  本文创新性地提出TIMI模型(Text-Image Mutual Integration),通过信息共压缩(ICC)和交叉指数移动平均(CEMA)技术实现病理图像与临床文本的双向特征对齐,在膀胱癌(准确率90.51%/F1值92.5%)和胃腺癌(准确率92.68%)数据集上显著超越现有SOTA模型6.28%,其跨模态泛化能力在自然图像测试中亦提升基线13.52%,为医学AI的可解释性决策提供了新范式。

  

Highlight

本研究报道了一种基于跨模态可泛化视觉-语言模型的新型病理图像识别方法,通过模态间双向监督实现突破性进展。

Result of Bladder Pathology Image-Text Dataset

在膀胱癌病理图像-文本数据集上的测试表明,TIMI模型展现出卓越性能。如表2所示,该模型不仅显著超越基准模型MobileNetV2,其多模态融合策略更实现了90.51%的预测准确率和92.5%的F1值,验证了双向监督机制在病理特征提取中的优势。

Discussion

TIMI模型通过创新性的信息共压缩(ICC)和交叉指数移动平均(CEMA)模块,解决了传统视觉-语言模型(VLM)中模态特征压缩导致的敏感性问题。特别值得注意的是,该模型在保持模态独立性的同时,通过共享离散潜在空间实现了病理图像与临床文本的精细对齐,这种"既协作又独立"的设计理念为医学AI的可信决策提供了新思路。

Conclusions

本研究开发的TIMI模型通过统一编码本将视觉与语言模态投射至共享离散空间,结合跨模态对比学习(CMCM)损失函数,显著提升了模型在膀胱癌(90.51%准确率)和胃腺癌(92.68%准确率)等复杂病理任务中的表现,其13.52%的跨域性能提升更证明了该框架在广义医学图像分析中的巨大潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号