基于弱监督预训练的外科手术步骤识别方法:利用未标注与异构标注视频提升标注效率

《International Journal of Computer Assisted Radiology and Surgery》:Weakly supervised pre-training for surgical step recognition using unannotated and heterogeneously labeled videos

【字体: 时间:2025年12月03日 来源:International Journal of Computer Assisted Radiology and Surgery 2.3

编辑推荐:

  本研究针对手术视频步骤标注耗时且难以规模化的问题,提出了一种弱监督预训练框架,利用未标注或异构标注的手术视频(如手术阶段、跨手术步骤及时间进度标签)提升手术步骤识别性能。实验表明,在标注数据有限(α=0.25)时,阶段标签预训练可使F1分数提升高达6.35分,相当于节省30–60例视频标注工作量,为手术培训系统提供了可行的低标注成本解决方案。

  
随着微创手术技术的普及,手术视频已成为外科培训和技能评估的重要资源。通过标注手术步骤(surgical steps)等结构化信息,学员能够更有效地定位关键操作节点,理解手术流程。然而,手工标注这些精细步骤不仅耗时耗力,还受限于临床专家的稀缺性,严重制约了大规模自动化分析系统的应用。现有研究多集中于单一手术类型或特定弱监督方法,缺乏对多术种、多标签类型的系统性探索,更未能充分挖掘未标注视频的潜在价值。
为突破这一瓶颈,Intuitive Surgical公司的Sreeram Kamabattula、Kai Chen与Kiran Bhattacharyya在《International Journal of Computer Assisted Radiology and Surgery》发表研究,提出一种灵活的两阶段弱监督预训练框架。该框架通过整合未标注或异构标注的手术视频(如利用手术阶段标签、时间分段标签甚至其他手术的步骤标签),显著提升在目标手术步骤识别任务中的性能,尤其在标注数据极度稀缺的场景下表现突出。
研究团队采用以EfficientNet-V2S为核心的2D CNN模型,以1 fps采样率提取视频帧。技术方法的关键在于构建五类弱监督预训练策略:同一手术的阶段标签(PHASE-WITHIN)、跨手术的阶段标签(PHASE-ALL)、同一手术的时间分段标签(TIME-WITHIN)、跨手术的时间标签(TIME-ALL)以及利用根治性前列腺切除术(RPY)步骤标签的跨手术预训练(STEP-RPY)。通过控制标注比例α(0.25–1.0)模拟真实标注稀缺环境,系统评估各策略对三种目标手术(袖状胃切除术SLG、子宫切除术HYS、胆囊切除术CHO)步骤识别性能的影响。
弱监督预训练显著提升低标注场景下的步骤识别性能
实验结果显示,在α=0.25的极端低标注条件下,阶段标签预训练策略表现最为稳健。其中,PHASE-WITHIN在SLG任务中使加权平均F1分数提升6.35分(95% CI: 4.70–8.01),接近全标注基线水平;PHASE-ALL策略在HYS和CHO任务中也分别带来4.27分和4.46分的显著增益。时间标签预训练虽效果稍逊,但在流程线性程度较高的CHO手术中仍呈现2.63分的提升。值得注意的是,STEP-RPY策略对HYS效果显著(△F1=2.24),推测因盆腔手术间存在解剖结构与操作工具的相似性,但对SLG反而产生负面效应,说明跨手术迁移需依赖领域相关性。
预训练数据规模与性能呈正相关
通过固定α=0.25并逐步扩大弱监督预训练数据集比例(0.25–1.0),发现PHASE-WITHIN与PHASE-ALL策略的性能随数据量增加而持续改善,增幅达4–5个F1点。这表明弱监督效果不仅依赖于标签类型,也与预训练数据规模密切相关。
弱监督预训练大幅降低标注成本
研究提出“需标注样本数(NNL)”指标量化效益。结果显示,在α=0.25时,采用PHASE-WITHIN的SLG任务仅需额外标注36例视频(95% CI: 27–45)即可达到基线模型同等性能;HYS与CHO的NNL分别为33例和66例。按每例标注耗时40分钟估算,相当于节省约44人时的标注资源。
讨论与结论
本研究证实,弱监督预训练能有效缓解手术步骤识别任务中的标注数据依赖问题。阶段标签因与手术工作流结构高度吻合,成为最可靠的监督信号;时间标签虽效果有限,但在缺乏语义标注时仍可作为替代方案。研究还揭示,弱监督预训练可增强模型对多中心数据异质性的鲁棒性,例如在HYS任务中,基线模型随标注量增加性能反而波动,而弱监督模型始终保持稳定上升趋势。
值得注意的是,该框架仅使用2D CNN架构即实现显著提升,未来结合时序建模或多模态输入后潜力更大。然而,策略选择的计算开销与跨机构泛化能力仍是实际部署的挑战。作者建议,在新手术场景中,可优先采集少量步骤标注数据,结合阶段级弱监督预训练,以较低成本实现高性能部署。
总之,该研究为手术视频分析提供了一条可扩展的技术路径,通过挖掘未标注资源的潜在价值,显著降低系统开发对专家标注的依赖,对推动手术教育智能化与标准化评估具有重要实践意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号