Vision-Language模型与CNN在结直肠息肉检测与分类中的性能对决:零样本AI能否挑战传统深度学习?

《Scientific Reports》:Vision language models versus machine learning models performance on polyp detection and classification in colonoscopy images

【字体: 时间:2025年11月28日 来源:Scientific Reports 3.9

编辑推荐:

  为破解结直肠镜筛查中息肉漏诊与分型误差难题,研究团队系统对比15种AI模型,发现GPT-4.1零样本检测F1达91.98%,与ResNet50持平,但分类仍落后20个百分点;首次证实VLM可胜任回顾性质控,而CNN仍是实时光学诊断(CADx)首选。

  
当“AI内镜医师”走进临床,人们期待它能像经验丰富的消化科专家一样,在结直肠镜下“一眼”锁定息肉并精准预判病理类型。然而现实并不完美:息肉漏诊率可高达25%,不同内镜医师对同一病灶的病理猜测差异巨大,患者因此面临不必要的活检或错失早癌切除时机。传统深度学习虽将检测敏感度推高至90%以上,却需海量标注、反复调参,换一家医院、换一台设备就可能“水土不服”。更棘手的是,罕见病理亚型(如绒毛状腺瘤VA)样本稀少,模型极易“视而不见”。能否跳过繁琐训练,直接让AI读懂图像并回答“有没有息肉?是哪种?”——这正是Vision-Language模型(VLM)宣称的零样本魅力所在。
为回答“零样本VLM能否媲美甚至超越经典CNN”这一悬念,Mohammad Amin Khalafi等人开展了一项横跨德黑兰、纽约、洛杉矶的多中心回顾研究。他们拿出2,258张来自428例患者的白光内镜图,让15种算法同台竞技:既有ResNet50这类“老牌CNN”,也请来GPT-4、Claude-3-Opus、Gemini-1.5-Pro等7位大模型“新贵”。所有VLM未经任何微调,仅凭自然语言提示便上阵“盲测”;CNN与经典机器学习(CML)则享受充分调参与交叉验证的“优待”。随后,团队又用西班牙PICCOLO库的75张外部图像“突袭”考核,观察谁更能跨院通用。
研究结论掷地有声:
  • 在“找息肉”这场二分类对决中,GPT-4.1以F1=91.98%与ResNet50(91.35%)打成平手,GPT-4.1-mini紧随其后(91.16%),首次证实前沿VLM可在零样本条件下达到临床级检测精度。
  • 进入“认病理”多分类擂台,CNN仍守擂成功:ResNet50加权F1=74.94%,领先最优VLM达20个百分点;对罕见亚型(VA、TVA、IP),部分VLM直接“交白卷”(F1=0%),而CNN至少保住25%–71%的得分。
  • 外部验证中,ResNet50加权F1骤降0.34,提示过拟合风险;Qwen-2.5-vl-72B仅降0.05,显示VLM在多中心场景下更具迁移韧性。
  • 成本与速度维度,CNN本地推理毫秒级、零后续费用,适合实时内镜下警报;VLM依赖云端API,秒级延迟且按次计费,现阶段更适合术后质控或第二意见。
一句话:VLM已在“看得见”层面与CNN并肩,但在“看得懂”层面仍需补课;两者并非替代,而是互补——CNN守前线实时诊断,VLM做后方智能质控,共同把结直肠癌防线前移到“息肉”这一可逆阶段。该研究为临床选择AI工具提供了首份量化“路线图”,也为VLM在罕见病、小样本场景下的进一步优化指明方向。论文于2025年11月27日在线发表于《Scientific Reports》。
关键技术速览
研究基于428例患者、2,258张病理标注白光内镜图;7类外部PICCOLO图像75张。采用网格搜索调优ResNet50及5种CML;7个VLM通过统一API、温度=1.0、最大token=512零样本推理;设计领域提示词含“链式思维”“专家模仿”等策略;用GPT-4自动解析VLM自由文本并映射为结构化标签;以F1、AUROC、加权F1评估,辅以TiLense可解释性热区可视化。
研究结果分述
3.1 模型优化
系统提示工程使VLM检测F1最高提升51%,分类加权F1最高飙升6,175%,证实提示设计是VLM临床落地的“胜负手”。
3.2 息肉检测性能(CADe)
GPT-4.1、GPT-4.1-mini与ResNet50同处90%第一梯队;BiomedCLIP凭医学预训练领先通用CLIP达20个百分点;Gemini-1.5-Pro仅19.37%,揭示VLM内部差异巨大。TiLense热图显示GPT-4.1能精准聚焦病灶,而GPT-4易被气泡、粪渣干扰。
3.3 息肉分类性能(CADx)
ResNet50以74.94%独占鳌头;GPT-4.1-mini虽为VLM最佳(55.07%),仍落后近20%。对罕见亚型VA、TVA、IP,VLM普遍“哑火”,CNN至少维持25%–71% F1,提示零样本迁移在细粒度病理判别上存在“天花板”。
3.3.1 外部验证
ResNet50加权F1从0.83跌至0.49,Qwen-2.5-vl-72B仅轻微下滑(0.66→0.61),预示VLM在多中心数据上更具稳健性。
3.4 小样本提示影响
给VLM“补图”后,检测端Gemma-3-27B提升17.4%,但分类端常牺牲大类精度换小类增益,整体加权F1反降,提示小样本策略需精细校准。
结论与讨论
文章指出,VLM与CNN呈现“任务依赖型”性能阶梯:零样本VLM已可在“有无息肉”检测上与CNN平起平坐,却仍在“何种息肉”分类上远逊于CNN,尤其对罕见亚型几乎束手无策。计算范式差异决定部署场景:CNN训练成本高但本地推理快,适合实时内镜警报;VLM零训练、云推理慢,适合术后批量质控。未来需扩大视频序列、多中心验证,并探索区域提示、小样本精选示例等策略,才能让“会说话”的AI真正在内镜室里“知行合一”。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号