并行多模态语言模型（PMLM）在乳腺结节早期诊断中的创新应用：基于视觉-语义融合的精准医疗突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月04日 来源：Advanced Intelligent Systems 6.1

编辑推荐：

　　这篇研究提出并行多模态语言模型（PMLM），创新性地整合图像（ResNet/ViT）与文本（LLaMA-2）模态数据，通过视觉语言模型（VLM）实现特征融合，在乳腺结节良恶性诊断中达到F1值0.87[95%CI:0.85–0.89]和AUC 0.90[95%CI:0.89–0.92]，显著优于传统单模态模型（如ResNet50准确率0.86）。研究采用焦点损失（focal loss）解决数据不平衡问题，为临床决策支持系统（BI-RADS分类）提供新范式。

并行多模态语言模型（PMLM）通过整合乳腺超声图像与临床文本报告，构建了创新的早期诊断框架。该研究针对传统单模态方法的局限性，提出三模块并行架构：图像单模态学习器（ResNet/ViT）、文本单模态学习器（LLaMA-2）和多模态学习器（CLIP-ViT-L），通过多数投票机制实现最终决策。

在方法学层面，图像模块采用预训练ResNet提取H×W×C维特征，经全连接层分类；文本模块通过LLaMA-2生成诊断报告，BERT-NER模型提取实体构建结构化表格；多模态模块利用视觉语言模型（LLaVA1.5）进行跨模态特征融合。研究创新性地引入焦点损失函数（α_t(1-?)^γlog(?)）解决数据不平衡问题（2217例良性vs 883例恶性）。

实验结果显示，PMLM在336×336像素超声图像上的诊断性能显著超越基线模型：准确率提升7%达0.87，AUC达0.90。消融实验证实CLIP-ViT-L与LLaMA-2的编码器组合最优，较次优方案（ViT-BigG+Qwen1.5）提高6个百分点。特别值得注意的是，模型对恶性结节的召回率达0.88，有效降低漏诊风险。

典型案例分析揭示，模型生成的报告与医师描述在结节大小、边缘特征等关键指标上高度吻合，但在淋巴结皮质增厚等细微特征识别仍存在差距。这主要源于病理数据的缺失，凸显多模态融合的改进空间。

该研究的临床意义在于：1）建立首个整合BI-RADS文本描述与超声图像的多模态诊断系统；2）验证焦点损失在医学影像分类中的有效性；3）为AI辅助诊断系统（AI-RADS）提供可解释性框架。未来工作将扩展至BI-RADS评分预测，并探索磁共振等多模态应用场景。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号