综述:通过映射估计健康状态效用:发展与局限性的系统评价

《Health and Quality of Life Outcomes》:Mapping to estimate health state utility: a systematic review of development and limitations

【字体: 时间:2025年10月18日 来源:Health and Quality of Life Outcomes 3.4

编辑推荐:

  本综述系统评价了2018-2024年间健康效用映射研究的发展现状与局限性。文章指出,映射(Mapping)作为填补成本效用分析(CUA)中健康状态效用值(HSUV)证据缺口的关键方法,其应用在样本量、模型多样性及结果报告方面已有显著进步,但仍存在概念重叠分析缺失、样本与效用值集地区不一致及重复测量处理不当等挑战。为此,作者呼吁更新映射指南并推动研究实践的标准化。

  

背景

健康效用测量是成本效用分析(CUA)的核心,其结果为质量调整生命年(QALY)的计算提供基础。QALY将健康相关生命质量(HRQoL)与生存时间相结合,通过健康状态效用值(HSUV)与生存时间的乘积得出。HSUV通常通过偏好测量(PBM)获得,例如欧洲五维健康量表(EQ-5D)、六维健康调查简表(SF-6D)等。然而,多数临床研究并未采用PBM直接测量HSUV,而是使用疾病特异性、非偏好基础的患者报告结局测量(PROMs),导致效用数据缺失或不一致。此外,不同卫生技术评估(HTA)机构在不同时期和地区推荐的PBM各异,同一PBM因版本或效用值集不同也可能导致结果不可比。这些因素共同造成了CUA所需效用证据的缺口。
映射(Mapping),亦称“交叉行走(Crosswalking)”或“转移至效用(Transfer to Utility)”,成为连接现有临床证据与CUA所需信息的重要桥梁。该方法通过建立源测量工具(如临床常用的PROMs)与目标测量工具(如PBM)之间的函数关系,基于已有数据预测目标效用值。映射可分为直接映射与间接映射。直接映射从源测量工具直接预测目标PBM的HSUV;间接映射则分两步:首先预测目标PBM各维度的健康状态水平,再结合特定地区的效用值集计算HSUV。尽管间接映射要求更全面的数据,但其能够提供目标PBM各维度的详细信息,并允许根据不同地区的效用值集灵活计算HSUV,因而具有更广泛的适用性。

方法

本研究遵循系统评价和荟萃分析优先报告项目(PRISMA)声明,在PROSPERO平台注册(ID: CRD420250651687)。文献检索覆盖PubMed、Web of Science以及牛津大学健康经济学研究中心的映射研究数据库(HERC Database of Mapping Studies),时间范围为2018年至2024年12月31日。检索策略结合了映射相关术语(如“mapp”、“crosswalk”)与健康效用相关关键词(如“health utilit*”、“QALY”)。
经过三轮筛选(标题、摘要、全文),最终纳入131项研究。这些研究不仅包括以映射算法开发为核心的原研究(92项),还涵盖了经济评价应用(21项)、方法学研究(13项)以及相关综述(5项)。数据提取与质量评估基于ISPOR、NICE、牛津大学和谢菲尔德大学发布的映射指南,制定了包含27项条目的质量评估标准,重点关注标题摘要、样本特征、源与目标测量工具、效用值集、数据处理、模型选择、变量、验证及外部泛化性等方面。

结果

纳入研究概况
在92项以映射为核心的研究中,共衍生出113个映射函数。源测量工具多为非偏好基础的工具,其中最常用的是欧洲癌症研究与治疗组织生命质量核心问卷(EORTC QLQ-C30)(13次)。目标测量工具则以EQ-5D-5L为主(53次,占46.90%),其次是EQ-5D-3L(26次,23.01%)和SF-6D(11次,9.73%)。
样本与估计方法
研究样本量差异巨大,最小为61人,最大达49,999人,仅3项研究(3.26%)样本量低于100人,表明近年来映射研究的样本规模总体有所提升。在映射方法上,59.29%的映射函数仅采用直接映射,而38.05%同时考虑了直接映射和反应映射(Response Mapping)。直接映射函数平均使用超过3种模型,最常用的是普通最小二乘法(OLS)(93次)和Tobit回归(56次)。反应映射函数平均使用约1种模型,主要为有序Logit模型(OLM)(19次)和多项Logit模型(ML)(12次)。平均每个模型纳入的协变量少于2个,最常使用的是年龄(82次)和性别(71次)。
验证与性能评估
所有映射函数均进行了性能验证,其中90.27%采用内部验证方法,最常用的是交叉验证(如10折、5折)和样本拆分法。性能评估指标平均超过3个,最常用的是平均绝对误差(MAE)(100次)和均方根误差(RMSE)(89次)。约79.65%的映射函数提供了预测评估图,最常用的是观测值与预测值散点图(36次)和Bland-Altman图(22次)。此外,46.9%的映射函数进行了亚组分析。
质量评估发现
质量评估揭示了一些关键问题。首先,32项研究(34.78%)在开发映射函数前未进行概念重叠分析,而概念重叠是确保映射有效性的前提。其次,29项研究存在样本人群地区与目标测量工具效用值集地区不一致的问题,其中16项研究的样本与值集甚至不在同一大洲,这可能导致效用估计偏差。此外,在19项报告存在重复观测数据的研究中,有3项未处理此问题,而重复观测若处理不当会导致标准误低估。

讨论

与2019年的一项系统评价相比,近七年的映射研究显示出积极的发展趋势:EQ-5D-5L的使用率大幅提升(从14.97%增至67.09%),超过EQ-5D-3L成为最常用的目标测量工具;小样本研究比例下降;同时采用直接和反应映射的比例增加了22.05%;模型应用更加多元化;协变量(如年龄、性别)的使用更加规范;性能评估指标的报告也更为全面。
然而,挑战依然存在。概念重叠分析的缺失、样本与值集地区的不匹配、以及对重复测量和天花板效应等数据特性的处理不当,是当前映射研究质量提升的主要障碍。例如,部分研究仍使用Pearson相关分析评估有序分类数据的关系,这可能低估其关联强度。未来研究应更规范地应用Spearman相关分析、探索性因子分析(EFA)等方法综合评估概念重叠。对于地区不一致问题,应优先选择与样本地区最接近的效用值集,并在数据允许的情况下开发反应映射函数,以增强未来应用的灵活性。针对重复测量和受限数据(如天花板效应),建议在建模前进行检验,并考虑使用聚类稳健标准误、两部分模型(TPM)、调整有限因变量混合模型(ALDVMM)或机器学习等更稳健的方法。
本研究也存在局限性。由于新旧评价的检索策略和纳入标准难以完全一致,趋势比较并非在最优条件下进行。此外,各研究在验证方法和性能指标上存在高度异质性,限制了统计比较的可行性。未来研究可尝试对相同源-目标测量工具组合的映射算法使用统一数据集和方法进行验证比较。

结论

综上所述,过去七年健康效用映射研究在标准化、样本规模、模型应用和结果报告方面取得了显著进步。然而,在概念重叠分析、确保样本与值集地区一致性以及处理复杂数据特性方面仍存在不足。为了推动高质量映射研究的发展,持续更新映射指南并确保研究实践全面遵循指南至关重要。这不仅有助于提升当前成本效用分析的证据质量,也为未来可能出现的新的健康产出指标之间的转换奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号