基于百度搜索指数的 SARIMAX 模型:助力中国丙肝精准预测与防控

【字体: 时间:2025年04月24日 来源:BMC Medical Research Methodology 3.9

编辑推荐:

  为解决传统丙肝监测系统的不足,广西医科大学研究人员开展 “Enhancing public health surveillance: SARIMAX model incorporating Baidu search index for HCV prediction in China” 研究,发现 SARIMA(0,1,1)(2,1,1)(12)+CSI (Lag=0) 模型预测性能更优,为实现 2030 年丙肝消除战略提供支持。

  在全球范围内,丙肝病毒(HCV)如同一个隐匿的 “健康杀手”,悄无声息地威胁着人们的健康。它具有高潜伏期的特点,许多感染者在肝脏出现二次损伤后才被确诊。而且,HCV 的慢性化率高达 55 - 85%,20 年内发展为肝硬化的风险在 15 - 30%。据世界卫生组织(WHO)估计,截至 2023 年,全球约有 5000 万人慢性感染 HCV,每年新增感染至少 100 万例。在中国,情况也不容乐观,到 2022 年,仅有约 18% 的 HCV 感染者被诊断出来,接受治疗的比例更是低至 1.3%,这与 WHO 制定的 2030 年消除丙肝目标相差甚远。
传统的 HCV 监测主要依赖于传统的传染病监测系统,但这种系统存在明显的缺陷和延迟,无法及时有效地应对疫情。随着互联网时代的到来,互联网衍生的数据因其丰富、实时和客观等优势,逐渐在公共卫生领域崭露头角。在新冠疫情期间,互联网搜索数据在传染病早期监测中的巨大潜力被挖掘出来。在中国,百度占据了搜索服务的主导地位,其百度搜索指数(BSI)能够直观反映民众对现实世界的实际需求。众多研究表明,BSI 在传染病早期监测和预警模型中具有重要的应用价值。

为了填补 HCV 发病率预测模型的空白,更好地应对 2030 年消除丙肝的战略目标,广西医科大学的研究人员开展了一项极具意义的研究。他们将目光聚焦在结合百度搜索指数构建精准的时间序列预测模型上,希望借此克服传统监测系统的不足,为丙肝防控提供更有力的支持。

研究人员从中国疾病预防控制中心官网收集了 2011 年 1 月至 2023 年 9 月 HCV 的报告病例数据,同时从百度指数官网获取了同期 HCV 相关关键词的每日搜索量,并将其转换为月度数据。在构建关键词数据库时,他们通过多渠道获取关键词,经过筛选和分类,最终确定了用于计算 HCV 综合搜索指数(CSI)的关键词。

为了构建合适的模型,研究人员运用了多种方法。首先,进行时间序列平稳性检验,通过绘制时间序列图、使用增强迪基 - 富勒检验(ADF 检验)和 Ljung - Box Q 检验,确定序列的平稳性,对不平稳的序列进行差分处理使其平稳。接着,将数据集划分为训练集和测试集,为模型构建和评估做准备。然后,基于赤池信息准则(AIC)的最小原则,确定季节性自回归综合移动平均(SARIMA)模型和带外生变量的季节性自回归综合移动平均(SARIMAX)模型的最优参数。利用自动拟合和手动拟合相结合的方式构建模型,并通过多种指标对模型进行评估。

在研究结果方面,从 2011 年 1 月至 2023 年 9 月,中国共报告了 2949160 例丙肝病例,月均发病 19276 例。HCV 发病率呈现季节性周期变化,每年 3 月是发病高峰期,2 月略有下降。受新冠疫情影响,2020 年和 2022 年发病率有所下降,但总体呈上升趋势。通过相关性分析,确定了 5 个与 HCV 高度相关的关键词用于计算 CSI。最终选定的 SARIMA(0,1,1)(2,1,1)(12)和 SARIMA(0,1,1)(2,1,1)(12)+CSI (Lag=0) 模型在各项评估指标中表现出色。在预测 2020 年 1 月至 2023 年 9 月 HCV 发病率时,SARIMAX 模型相较于 SARIMA 模型,平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)更低,预测值更接近实际发病率。在亚组预测中,SARIMAX 模型在疫情期间和后疫情时代的预测性能也更具优势。

研究结论表明,SARIMA(0,1,1)(2,1,1)(12)+CSI (Lag=0) 模型具有卓越的预测性能,即使面对新冠疫情这样的突发公共卫生事件,也能保持较高的准确性。这一模型为实现 2030 年 HCV 动态清零战略提供了强大的支持。在讨论部分,研究人员指出,HCV 感染危害严重,准确预测有助于早期筛查和诊断,从而减少新感染、癌症和死亡的发生。与其他模型相比,SARIMAX 模型引入 BSI 作为外生变量,弥补了 SARIMA 模型只能考虑单一变量的不足,显著提高了预测精度。不过,该研究也存在一定的局限性,如仅分析了百度搜索数据,未纳入其他平台数据,无法考量行为偏好和区域环境等因素的影响,关键词的适用性也需进一步更新。

这项研究发表在《BMC Medical Research Methodology》上,为公共卫生领域的研究人员和政策制定者提供了宝贵的参考。它不仅让我们对 HCV 的流行趋势有了更清晰的认识,还为传染病预测模型的发展开辟了新的道路。未来,随着研究的不断深入和完善,有望进一步提高 HCV 预测的准确性,为全球消除丙肝的目标贡献更多力量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号