编辑推荐:
这篇综述聚焦职业性肺癌研究中吸烟因素的间接调整方法。通过系统检索,梳理出四类方法,分析其数据要求、假设及对效应估计的影响。研究发现不同方法各有利弊,为相关研究选择合适调整方法提供参考,助力职业癌症研究的发展。
1. 引言
在全球范围内,约 18 - 20% 的肺癌死亡与职业暴露相关,低中收入国家(LMICs)因 workplace safety regulations 相对宽松,受影响更大。国际癌症研究机构(IARC)已确定多种职业暴露,如石棉、焊接烟雾、结晶硅、氡、柴油废气、砷以及赤铁矿开采等职业,与肺癌发生密切相关。
烟草吸烟是肺癌的主要风险因素,80 - 90% 的肺癌诊断与之相关。吸烟模式受时间、地理区域、性别、烟草产品和社会经济地位(SEP)等因素影响,且常与肺癌风险相关的职业暴露呈正相关。吸烟可能作为 SEP 的代理变量,同时它也是肺癌的强风险因素,可能成为潜在的混杂因素。若不调整吸烟因素,研究结果可能出现偏差:当吸烟与职业暴露呈正相关时,结果会偏离零假设;若呈负相关,则会使估计值偏向零假设,调整后估计值会增加,从而显示出职业暴露的病因作用。
在职业性肺癌研究中,由于数据来源常局限于公司记录或行政登记,仅包含性别、年龄和工作史等关键变量,吸烟信息往往缺失,或仅在部分研究样本的职业健康记录中存在,或来自单独但相关的工作人群。因此,直接调整方法(如回归模型、限制为从不吸烟者或按吸烟状态分层分析)无法实施,这促使研究人员采用间接调整方法。然而,2000 年后职业性肺癌研究中此类方法缺乏全面综述,随着软件开发和计算能力的进步,评估这些方法的影响并确定其适用场景十分必要。
2. 方法
本系统综述遵循 PRISMA 报告标准,使用 Covidence 电子平台管理文献检索、标题和摘要筛选以及全文文章审查。研究方案在 PROSPERO(国际系统评价前瞻性注册库:注册号 CRD42023448802)进行了前瞻性注册。但在实际研究中,风险偏倚评估原计划使用 Newcastle–Ottawa Scale(NOS),后因发现其不适用而排除;研究完成日期也从 2023 年 12 月 31 日延长,以进行更新的文献检索。
2.1 搜索策略
研究团队在研究馆员的协助下制定搜索策略,检索 Embase、MEDLINE 和 Web of Science 数据库中 2000 年 1 月 1 日至 2025 年 4 月 2 日发表的文章。搜索策略结合了与吸烟、肺癌和间接吸烟调整相关的关键词和 MeSH 术语,并通过团队讨论进行了优化,详细搜索策略见补充材料 Table S1。
2.2 研究选择
由三位评审员(BH、JSS、EP)独立进行初始标题和摘要筛选,八位独立评审员(BH、JSS、EP、MCT、ESS、DMM、TL、IGC)对全文进行评审,符合纳入标准的研究被选入进行数据提取。在筛选和纳入过程中,若出现意见分歧,则咨询另外两位评审员(KS、IGC)以达成共识。
2.3 资格标准
本研究的纳入标准聚焦于与职业暴露相关的肺癌研究(职业暴露定义为工业 / 职业环境中出现的物质、职业或情况),且采用间接调整吸烟因素的研究。不符合这些标准的研究,以及非原创文章、非同行评审研究和非英文发表的研究均被排除,具体排除研究及原因见补充材料 Table S2。
2.4 数据提取和间接方法分类
研究人员提取了第一作者、出版年份、国家、行业 / 职业、参与者和病例数量、职业暴露类型、外部 / 内部比较组、效应估计类型、间接调整方法、数据要求和来源以及必要假设等信息。数据提取过程通过在 Microsoft Excel 中创建数据提取表进行标准化,并由八位评审员使用 Larkin 等人的论文进行预测试。数据提取由相同的评审员完成,并通过两次视频会议跟进进度。两位评审员(BH、JSS)将纳入的文章分为四类职业性肺癌研究中吸烟间接调整方法:无调整数据分布;有调整数据分布;阴性对照结果;因子分析模型。使用 RStudio 2021.09.0 版本和 ggplot2 包绘制间接调整前后效应估计值及其 95% 置信区间(CIs)的对比图。
3. 结果
3.1 研究选择
共确定了 53 项职业暴露与肺癌的研究进行全文评审,其中 15 项研究符合纳入标准并进行数据提取。最常见的排除原因是未研究职业暴露(31 项研究)或使用直接吸烟调整(4 项研究),排除研究及原因见补充材料 Table S2。
纳入研究的关键特征总结在 Table 1 中。这些研究大多在欧洲和北美进行,涵盖多种职业暴露,如人造玻璃纤维、岩石 / 矿渣棉暴露、炭黑、二氧化硅、柴油废气、沥青烟雾、电离辐射和铍等。部分研究未聚焦特定职业暴露,而是包含多个有不同暴露的职业组。6 项研究使用外部参考人群并报告标准化死亡率 / 发病率比(SMRs/SIRs),6 项研究进行内部队列比较并报告相对风险(RRs),3 项研究未报告效应估计值,所有纳入研究均为队列研究。
3.2 间接调整方法
研究人员将职业队列研究中肺癌吸烟间接调整方法分为四类,各方法的主要优缺点和假设总结在 Table 2 中。
- 无调整数据分布:此类研究从职业队列的子集或不同相关人群获取吸烟信息,计算群体水平的吸烟率,进而间接调整职业队列中的吸烟因素。
- 有调整数据分布:部分研究采用贝叶斯偏差调整来调整效应估计值(如 SMR),通过蒙特卡罗敏感性分析和贝叶斯偏差分析评估吸烟作为未测量混杂因素的不确定性。还有研究使用子队列的个体吸烟流行率估计值外推至整个队列,或采用插补技术间接调整吸烟因素。另外,一些研究提出投影方法,将吸烟数据从案例对照研究投影到队列中。
- 阴性对照结果:Richardson 等人使用阴性对照结果(如慢性阻塞性肺疾病,COPD)间接调整辐射 - 肺癌关联中的吸烟因素。该方法要求感兴趣的暴露(如辐射)不是阴性对照结果的原因,且辐射与 COPD 的关联是由于吸烟差异而非辐射导致 COPD。
- 因子分析模型:Haldorsen 等人使用因子分析模型间接调整肺癌的 SIRs 以考虑吸烟因素。通过从烟草相关癌症(肺癌、膀胱癌、肾癌、胰腺癌、鼻癌、胃癌)发病率的验证性因子分析中得出烟草评分,作为潜在共同因素来捕捉吸烟的潜在影响,并计算调整后的 SIRs。
3.3 数据要求和来源
不同研究的数据要求和来源各异。如 Larkin 等人从美国铁路行业死亡案例对照研究的近亲及 1982 年现役铁路工人调查中收集个体吸烟史;Marsh 等人从国家健康访谈调查获取外部比较人群中曾经吸烟者的比例;Haldorsen 等人从 1965 - 1980 年的国家调查收集职业和吸烟习惯信息;Morfeld 等人使用嵌套病例对照研究中得出的队列和参考人群的吸烟者比例。还有研究通过收集暴露和未暴露人群的吸烟者比例、吸烟对肺癌影响的比率、子队列的吸烟习惯数据,或利用案例对照研究中的吸烟信息(如 WISMUT 队列研究)来进行间接调整。部分研究使用 COPD 死亡数据(如 Richardson 和 Wing 的研究)或特定癌症组的发病率(如 Haldorsen 等人的研究)间接估计烟草暴露。
3.4 必要假设
不同间接调整方法有各自的必要假设。进行外部比较且无调整数据分布的研究,假设外部吸烟信息在群体水平上适用于研究的职业队列。依赖子样本或伴随案例对照研究吸烟数据的研究,假设子样本代表整个队列。阴性对照结果方法假设辐射不会导致 COPD,且吸烟导致 COPD 和肺癌,辐射 - 肺癌与辐射 - COPD 效应估计值的差异主要源于吸烟混杂。因子分析方法假设吸烟对各癌症类型发病率的影响能描述暴露相关影响,且模型中包含癌症部位特异性因子可避免过度调整。
3.5 未调整和调整效应估计的比较
多项纳入研究提供了间接调整吸烟前后的暴露 - 肺癌关联估计值。通过这些数据,研究人员定量和可视化地探讨了间接调整对效应估计的影响。对于使用外部比较组的研究,间接调整后估计值的变化范围为 - 36.1% 至 + 17.3%;使用内部比较组的研究,变化范围为 - 16.2% 至 + 47.8%。如 Marsh 等人的研究中,应用吸烟校正因子后,玻璃纤维工人的 SMR 从 1.17 降至 1.01,岩石 / 矿渣棉工人的 SMR 从 1.38 降至 1.22;Steenland 等人使用蒙特卡罗方法调整后,肺癌 SMR 从 1.60 降至 1.43。在内部比较组研究中,Larkin 等人的研究显示,暴露于柴油废气的 40 - 44 岁工人的调整后 RR 从 1.58 降至 1.44;Garshick 等人发现柴油废气诱导肺癌的调整后 RR 从 1.35 降至 1.22。
4. 讨论
本系统综述识别并评估了 15 项在职业性暴露相关肺癌风险研究中应用吸烟间接调整方法的研究,将其分为四类间接吸烟调整方法。研究发现多数研究使用外部或部分吸烟信息间接调整吸烟,且根据是否使用调整数据分布而有所不同。使用外部比较(如 SMRs/SIRs)的研究通常采用无调整数据分布的方法,而使用内部比较(如 RR)的研究多采用通过蒙特卡罗技术、贝叶斯先验或插补技术得出分布的方法,这些技术可量化偏差的不确定性。阴性对照结果和因子分析模型方法虽无需部分吸烟数据,但假设较强。
不同间接调整方法的适用性取决于研究的暴露因素、职业环境和行业类型,也依赖于数据要求和来源,以及假设的满足程度。无调整数据分布的外部比较方法,假设外部吸烟信息适用于职业队列,该方法可能降低行业特定队列的 SMRs,但在某些研究中也可能出现调整后 SIRs 增加的情况,适用于暴露信息有限且只能进行外部比较的场景。有调整数据分布的方法(如蒙特卡罗技术、贝叶斯先验或插补技术)能得到校正估计值的完整分布,应用于行业特定队列时,调整后估计值略有下降,表明吸烟存在一定的正向混杂。插补技术依赖伴随研究的吸烟数据,虽有效但可能存在误分类和残余混杂。贝叶斯分析等方法可量化吸烟混杂的不确定性,适用于研究者了解混杂偏差并希望改进敏感性分析的情况。
阴性对照结果方法适用于有多个结果数据且暴露与阴性对照结果无因果关系的情况。Richardson 等人使用 COPD 数据作为阴性对照结果,发现调整后辐射 - 肺癌关联的估计值在不同研究中有增有减。该方法假设辐射与 COPD 无因果关系,若有新信息,此假设需进一步考量。因子分析模型方法在无暴露数据的情况下有效,通过分析吸烟相关癌症部位得出烟草评分来间接调整,与无调整数据分布的校正技术不同,它不依赖特定吸烟信息。
在比较调整前后的效应估计值以识别危害时,仅有少数暴露 - 结果关联的效应估计值发生显著变化。在风险评估方面,吸烟的混杂程度因研究的暴露 - 肺癌关联大小以及吸烟水平在暴露水平间的分布情况而异。此外,许多国家职业性肺癌致癌物和烟草吸烟暴露水平随时间下降,但在 LMICs 可能仍然较高,暴露和潜在混杂因素的变化可能影响研究结果。本研究未检索到病例对照研究,因其通常有个体吸烟和其他潜在混杂因素的数据,但可从其报告的未调整和调整结果的 “偏差因子” 中获取信息,辅助解释队列研究结果。
丹麦的一项研究提出使用生活方式因素(包括主动吸烟)的工作暴露矩阵(JEMs)作为吸烟数据缺乏时的替代方法。然而,该方法要求不同工作岗位有有效的年龄、性别和时间段特异性吸烟信息,适用于基于登记的职业研究,但在其他场景应用时需假设吸烟习惯在不同环境中相似。
本系统综述存在一定局限性。未涵盖 LMICs 的研究,而这些地区吸烟率上升且职业暴露控制有限,间接调整方法的应用潜力可能更大。现有风险偏倚工具难以有效评估间接吸烟调整的效果,本研究最初尝试使用 NOS 评估,但发现其不适用,因此未采用任何此类框架。此外,间接调整方法无法完全消除吸烟的残余混杂,尤其是由于部分吸烟信息应用于整个研究人群的假设较强。但部分方法可量化偏差的不确定性,有助于评估结果对偏差的敏感性。
本研究的优势在于比较了间接调整吸烟前后的效应估计值,直观展示了吸烟的混杂影响,有助于解释职业队列研究结果,特别是在易产生偏差的场景中。研究结果可助力职业癌症研究中混杂因素的控制,希望能鼓励科学家更多地使用间接调整方法,提升研究质量。
总之,本综述识别了 15 项在职业性肺癌研究中采用不同吸烟间接调整方法的研究,将其分类并详细分析。前两类使用部分或辅助吸烟数据的方法,在数据可用时可能更具优势;后两类方法在数据缺乏时适用,但假设较强。在吸烟或其他潜在强混杂因素数据不完整的情况下,应考虑采用间接调整方法,尤其是能量化偏差不确定性的方法。本综述旨在为未来职业性癌症研究中选择合适的间接调整方法提供指导,同时强调不应忽视对单个研究的评估。