编辑推荐:
为解决前庭神经鞘瘤(VS)监测中自动分割算法临床可靠性评估问题,研究人员开展了自动分割与人类观察者间变异性对比的可靠性研究。结果显示多中心模型可靠性高,部分结果优于单中心模型。这为 VS 自动分割算法临床应用提供依据。
在神经外科领域,前庭神经鞘瘤(Vestibular schwannomas,VS)作为一种较为少见的良性颅内肿瘤,近年来其治疗管理方式正发生着显著变化。过去,多采用显微手术进行治疗,但如今,随着医学理念的发展,保守治疗策略逐渐兴起。对于体积较小的 VS 肿瘤,“观察等待(wait-and-scan)” 策略应用得越来越多,因为治疗后患者症状改善并不明显。而当这些小肿瘤出现进展时,立体定向放射外科手术(stereotactic radiosurgery)则成为稳定病情的重要手段。
在这样的治疗模式下,准确监测肿瘤的生长变化变得至关重要。临床实践中,传统的肿瘤监测多采用线性测量的方法,然而这种方法在检测肿瘤进展方面敏感度较低。与之相比,体积测量能够更精准地反映肿瘤的变化情况,可由于其操作耗时较长,在临床中未能广泛应用。
随着人工智能(Artificial Intelligence,AI)技术的飞速发展,利用 AI 实现肿瘤体积自动标注算法成为研究热点。众多研究表明,相关算法在常用的分割性能指标,如 Dice 评分、平均对称表面距离(Average symmetric surface distance,ASSD)等方面表现出色。但这些基于几何的指标并不能反映临床实践中最为关键的肿瘤体积变化情况,也无法区分测量中的随机误差与人为标注的固有差异,临床相关性存在不足。
为了深入探究 AI 分割在 VS 患者临床应用中的可靠性,来自荷兰伊丽莎白 - 特温斯登医院(Elisabeth-TweeSteden Hospital)、埃因霍温理工大学(Eindhoven University of Technology)等机构的研究人员开展了一项重要研究。该研究成果发表在《Neuroradiology》杂志上。
研究人员为了达成研究目标,采用了一系列关键技术方法。在数据收集方面,选取了来自伊丽莎白 - 特温斯登医院(ETZ)的 1015 例患者的 1856 次增强 T1 加权磁共振成像(ceT1)扫描数据,以及伦敦国王学院(KCL)的 242 次扫描数据。利用这些数据,基于 nnU-Net 框架开发了单中心和多中心两个自动注释模型。采用五折交叉验证进行模型训练,训练完成后,通过计算 Dice 评分、ASSD、95% 百分位数豪斯多夫距离(95th percentile Hausdorff distance,HD95)等几何分割指标评估模型性能,还运用基于均值的一致性界限(limits of agreement with the mean,LOAM)方法对比模型与人类观察者的体积一致性,以此评估模型的临床可靠性 。
下面来看具体的研究结果:
模型性能
两个自动分割模型在测试集中的 100 次 ceT1 扫描中均成功检测到 VS 肿瘤。单中心模型的 Dice 评分中位数为 91.6%(四分位距:85.2 - 94.4),多中心模型为 91.9%(四分位距:87.3 - 94.7),与其他多中心研究结果相近。但在 ASSD 和 HD95 指标上,单中心模型表现稍逊于多中心模型。同时,两个模型的 Dice 评分均显示出与肿瘤体积的相关性,体积越大,评分越高。在肿瘤体积和相对体积误差(Relative volume error,RVE)方面,单中心模型的中位肿瘤体积为 1038 mm3(四分位距:302 - 3332),多中心模型为 963 mm3(四分位距:255 - 3145),且多中心模型的中位误差(8.2%,四分位距:3.9 - 15.8)低于单中心模型(12.4%,四分位距:6.8 - 27.4),不过二者与人类观察者相比,在几何分割指标上仍存在差距。
体积一致性分析
对比自动分割模型与人类观察者的体积偏差,单中心模型在 100 个肿瘤中有 44 个体积与人类注释可比,其余 56 个超出上限,中位数超出 7.9 个百分点;多中心模型有 73 个体积与人类表现可比,27 个超出,中位数超出 4.6 个百分点。小肿瘤的自动标注与人类标注可比性最差,单中心模型在最小肿瘤体积四分位数中仅有 24% 的标注在人类一致性范围内,多中心模型为 60% 。而最大肿瘤体积四分位数中,自动标注与人类观察者的可比性较高。
包含 AI 注释者的观察者间变异性
将自动分割模型纳入后,观察者间变异性增加。单中心模型使 LOAM 大幅上升,置信区间变宽,与仅基于人类观察者的一致性界限差异显著;多中心模型使 LOAM 略有上升,置信区间变宽,但与人类观察者的置信区间有重叠。
研究结论和讨论部分,对于 VS 的临床管理而言,准确监测肿瘤变化意义重大。虽然两个自动分割模型在常用几何性能指标上表现良好,但在临床可靠性方面却有明显差异。单中心模型仅 44% 的肿瘤体积估计与人类注释可比,不适用于临床体积评估;多中心模型 73% 的体积估计与人类表现可比,虽然部分注释在统计学上不够准确,但与人类表现较为接近 。不过,在小肿瘤的标注上,多中心模型仍存在较高错误率,使用时需谨慎。此外,本研究存在一定局限性,如仅使用 ceT1 加权图像训练模型,模型未进行外部验证等。但总体而言,多中心自动分割模型在临床可靠性方面表现突出,具有在临床实践中应用的潜力,为 VS 的临床管理提供了新的思路和方法,也为后续相关研究指明了方向,即应更加注重结合临床相关指标对模型进行全面评估 。