
-
生物通官微
陪你抓住生命科技
跳动的脉搏
并行多模态语言模型(PMLM)在乳腺结节早期诊断中的创新应用:基于视觉-语义融合的精准医疗突破
【字体: 大 中 小 】 时间:2025年08月04日 来源:Advanced Intelligent Systems 6.1
编辑推荐:
这篇研究提出并行多模态语言模型(PMLM),创新性地整合图像(ResNet/ViT)与文本(LLaMA-2)模态数据,通过视觉语言模型(VLM)实现特征融合,在乳腺结节良恶性诊断中达到F1值0.87[95%CI:0.85–0.89]和AUC 0.90[95%CI:0.89–0.92],显著优于传统单模态模型(如ResNet50准确率0.86)。研究采用焦点损失(focal loss)解决数据不平衡问题,为临床决策支持系统(BI-RADS分类)提供新范式。
并行多模态语言模型(PMLM)通过整合乳腺超声图像与临床文本报告,构建了创新的早期诊断框架。该研究针对传统单模态方法的局限性,提出三模块并行架构:图像单模态学习器(ResNet/ViT)、文本单模态学习器(LLaMA-2)和多模态学习器(CLIP-ViT-L),通过多数投票机制实现最终决策。
在方法学层面,图像模块采用预训练ResNet提取H×W×C维特征,经全连接层分类;文本模块通过LLaMA-2生成诊断报告,BERT-NER模型提取实体构建结构化表格;多模态模块利用视觉语言模型(LLaVA1.5)进行跨模态特征融合。研究创新性地引入焦点损失函数(αt(1-?)γlog(?))解决数据不平衡问题(2217例良性vs 883例恶性)。
实验结果显示,PMLM在336×336像素超声图像上的诊断性能显著超越基线模型:准确率提升7%达0.87,AUC达0.90。消融实验证实CLIP-ViT-L与LLaMA-2的编码器组合最优,较次优方案(ViT-BigG+Qwen1.5)提高6个百分点。特别值得注意的是,模型对恶性结节的召回率达0.88,有效降低漏诊风险。
典型案例分析揭示,模型生成的报告与医师描述在结节大小、边缘特征等关键指标上高度吻合,但在淋巴结皮质增厚等细微特征识别仍存在差距。这主要源于病理数据的缺失,凸显多模态融合的改进空间。
该研究的临床意义在于:1)建立首个整合BI-RADS文本描述与超声图像的多模态诊断系统;2)验证焦点损失在医学影像分类中的有效性;3)为AI辅助诊断系统(AI-RADS)提供可解释性框架。未来工作将扩展至BI-RADS评分预测,并探索磁共振等多模态应用场景。
生物通微信公众号
知名企业招聘