编辑推荐:
在诊断试验准确性研究中,缺乏金标准时常用专家小组(expert panel)作参考标准,但影响其准确性估计的因素不明。研究人员模拟多种场景,发现参考测试准确性、患病率等影响偏差,该研究为优化诊断准确性评估提供依据。
在医学诊断领域,精准判断一项诊断测试是否可靠至关重要。想象一下,患者满心期待着诊断结果能准确反映自己的病情,医生也依靠诊断测试来制定治疗方案。然而,当没有绝对准确的 “金标准” 参考时,问题就接踵而至。目前,在缺乏金标准的诊断试验准确性研究中,常借助专家小组作为参考标准来判断目标病症(如某种疾病、身体状况或健康状态)是否存在,进而评估诊断测试的表现。但实际操作中,用专家小组判断存在诸多疑问:不同的研究特征(像目标病症在人群中的患病率)和专家小组特征(例如专家人数)会对诊断测试准确性的评估产生怎样的影响?怎样才能更好地整合专家们的判断呢?这些问题一直困扰着医学研究人员,也阻碍着准确评估诊断测试的准确性,所以开展相关研究迫在眉睫。
来自荷兰乌得勒支大学医学中心朱利叶斯健康科学与初级保健中心(Julius Center for Health Sciences and Primary Care, University Medical Center Utrecht)的研究人员 B. E. Kellerhuis、K. Jenniskens 等人,针对这些问题展开了深入研究。他们通过模拟大量场景,评估研究和专家小组特征对诊断测试准确性估计的影响,研究成果发表在《BMC Medical Research Methodology》上。
为了完成这项研究,研究人员采用了结构化的 ADEMP 方法设计模拟研究。在模拟过程中,以专家小组作为参考标准,估算一项诊断测试的敏感性(Se)和特异性(Sp)。具体来说,研究人员设定了一系列输入参数,包括专家小组中的专家数量、研究参与者数量、目标病症分类阈值、目标病症患病率、专家之间的随机和系统差异,以及组件测试(用于构建参考标准的测试)的敏感性和特异性等。总共进行了 1944 种场景模拟,每个场景重复 1000 次。在模拟数据生成过程中,研究人员先根据目标病症患病率,从二项分布中抽取数据模拟目标病症的存在情况;接着依据目标病症状态和测试的敏感性、特异性,模拟组件测试和诊断测试结果;然后运用贝叶斯定理计算专家小组对目标病症存在的概率估计;之后还模拟了专家之间的随机和系统差异,部分场景中引入过度自信的专家进行模拟。最后,研究人员通过计算平均均方误差(MSE)来量化诊断测试敏感性和特异性估计值与真实值之间的偏差。
研究结果如下:
- 组件测试的敏感性和特异性:组件测试的敏感性和特异性对 MSE 影响较大。当组件测试的敏感性和特异性为 80% 时,MSE 明显低于 70% 的场景。若组件测试为 “镜像” 组合(即两个低敏感性高特异性测试和两个高敏感性低特异性测试),MSE 介于 70% 和 80% 之间。这表明更准确的组件测试能有效降低诊断准确性估计的偏差。
- 患病率:患病率对 MSE 也有显著影响。随着患病率增加,敏感性估计的平均 MSE 降低(从患病率 20% 时的 0.01 降至 50% 时的 0.004),而特异性估计的平均 MSE 升高(从患病率 20% 时的 0.002 升至 50% 时的 0.006),不过其影响较为复杂,部分场景中敏感性估计的 MSE 会增加。
- 专家小组中的专家数量:增加专家数量,平均而言并不会改变 MSE。但当采用最大或最小专家估计值作为共识机制时,专家数量增加会产生不同影响:最大估计值作为共识机制时,敏感性的 MSE 升高;最小估计值作为共识机制时,敏感性的 MSE 降低,特异性的 MSE 变化则相反。
- 参与者数量:增加参与者数量对 MSE 影响不大,在 100、360 和 1000 名参与者的场景中,敏感性和特异性的平均 MSE 分别稳定在 0.007 和 0.004 ,且与其他因素无明显交互作用。
- 分类阈值:分类阈值的选择对 MSE 影响很大。分类阈值为 20% 的场景中,敏感性的 MSE(0.014)显著高于 50%(0.005)或 80%(0.002)的场景,并且与目标病症患病率存在一定交互作用,但 20% 的分类阈值从未使 MSE 低于 50% 或更高的分类阈值。
- 过度自信的专家:在某些场景中,加入过度自信的专家似乎能降低 MSE,但在其他场景中则会导致 MSE 增加,其影响因不同因素组合而差异巨大。
综合研究结论和讨论部分,该研究意义重大。研究发现当参考标准为专家小组时,诊断测试准确性结果往往存在偏差,且多数情况下诊断测试的敏感性和特异性会被低估。虽然增加专家数量或研究参与者数量并不能必然减少偏差,但为专家小组提供更准确的组件测试可降低偏差。此外,研究人员建议专家小组提供目标病症存在的概率估计,而非单纯的二分分类,这有助于深入了解目标病症分类的不确定性,为未来计算诊断测试准确性估计提供新的思路和方法。这项研究为医学研究人员在诊断试验准确性研究中,如何更合理地使用专家小组作为参考标准提供了重要参考,也为后续优化诊断测试准确性评估指明了方向,推动了医学诊断领域的发展。