直觉引导的深度强化学习框架:突破未知约束下软组织自主操控的难题

【字体: 时间:2025年04月15日 来源:Cyborg and Bionic Systems

编辑推荐:

  编辑推荐:本研究针对机器人辅助手术中软组织自主操控的难题,提出基于软演员-评论家(ID-SAC)的直觉引导强化学习框架。通过设计直觉操控(IM)策略与自主抓取点选择网络,解决了未知动态约束和障碍物规避问题,显著提升机器人对软组织的操控能力。该成果为提升手术机器人自主决策水平提供了创新解决方案。

  

在机器人辅助手术领域,软组织操控始终是制约手术自主化的关键瓶颈。传统手术机器人依赖医生手动操控,而复杂的体内环境和软组织非线性特性使得自主决策面临巨大挑战。现有研究往往假设抓取点已知且组织约束恒定,这与真实手术场景中动态变化的解剖环境相去甚远。当遇到突发性外力干扰或器械碰撞时,传统控制算法极易失效。更棘手的是,软组织具有无限自由度,基于精确建模的控制策略在真实手术中难以实现,而纯数据驱动的学习方法又面临样本不足的困境。

针对这些挑战,国内某研究机构团队在《Cyborg and Bionic Systems》发表创新研究,提出直觉引导的深度强化学习框架(ID-SAC)。该研究突破性地整合了医生的操作直觉与机器人的精确控制能力,通过SOFA平台构建肝脏仿真模型,采用多模态融合策略解决未知约束下的软组织操控问题。研究团队设计了双模式决策机制:当远离障碍时采用类似医生的直觉牵引策略(IM),接近障碍时自动切换为基于软演员-评论家(SAC)的精细控制模式。特别开发的调节因子α(t)作为动作参数,实现了两种模式的动态平衡。同时构建的深度Q网络可自主选择最优抓取点vg,避免病变区域并评估操作成功率。实验证明,该框架在位置、曲线和区域三类变形任务中均表现优异,在存在动态干扰和障碍的场景下成功率显著优于传统SAC算法。

关键技术方法包括:1)基于SOFA的肝脏生物力学仿真,模拟四种手术场景(NOND/NOWD/WOND/WOWD);2)深度Q网络驱动的抓取点选择算法,通过状态-动作值Qsr评估成功率Ω;3)双模式融合控制策略,调节因子α(t)∈[0,1]动态平衡IM模式(πim)与SAC模式(πdm);4)创新奖励函数设计,整合变形误差μ(·)、安全约束zs等多项指标。

研究结果部分显示,在抓取点选择方面,算法成功识别出高回报区域,避开137号等无效抓取点,在肿瘤禁区外找到替代方案。在位置基准任务中,ID-SAC在WOWD场景下以273步完成任务,显著优于人类操作的982步。轨迹质量分析表明,机器人操作平均速度(0.73单位/步)和加速度(0.29单位/步2)均优于人类,且路径平滑度提升5倍。调节因子动态曲线揭示:当组织距离障碍20mm时α(t)>0.8,激活精细避障模式;距离>50mm时α(t)<0.2,切换为快速IM模式。在曲线和区域变形任务中,算法成功协调4-13个特征点xi(t)同步运动,验证了多目标控制能力。

该研究的突破性在于:首次将神经认知科学的双系统理论应用于手术机器人控制,通过α(t)调节实现"直觉-理性"的动态平衡;开发的抓取点评估网络可预测成功率,避免过度变形;统一奖励函数设计解决了大变形空间探索难题。相比传统方法,ID-SAC框架使机器人在复杂场景下展现出类人的决策能力,为提升手术安全性和精准度提供了新范式。未来可进一步探索多器械协同操作,并将该框架扩展至其他柔性器官的自主手术应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号