编辑推荐:
为解决哮喘患者信息需求未被满足的问题,德黑兰医科大学的研究人员开展哮喘信息在线搜索的研究。利用 GT 数据,发现不同语言人群搜索差异。该研究为健康组织提供策略依据,值得科研人员一读。
德黑兰医科大学(Tehran University of Medical Sciences)健康信息管理与医学信息学系的 Marsa Gholamzadeh、Mehrnaz Asadi Gharabaghi 以及 Hamidreza Abtahi 等研究人员,在《BMC Pulmonary Medicine》期刊上发表了题为 “Public interest in online searching of asthma information: insights from a Google trends analysis” 的论文。这篇论文在哮喘研究领域意义重大,它借助谷歌趋势(Google Trends,GT)数据,深入剖析了公众对哮喘信息的在线搜索行为,为哮喘相关的健康干预、教育推广以及医疗资源分配提供了极具价值的参考依据。
研究背景
哮喘是一种异质性慢性呼吸道疾病,其特征为气道阻塞。据全球疾病负担研究数据显示,全球约有 2.62 亿人受哮喘影响,每年因哮喘相关问题死亡的人数达 25 万。2023 年,美国、英国和葡萄牙是哮喘患病率最高的三个国家。尽管哮喘的治疗和诊断技术不断进步,但在许多国家,哮喘的控制情况仍不理想。
自我管理是控制哮喘的有效方式之一,哮喘管理项目也一直致力于通过患者教育和提高公众意识来推动患者积极参与疾病管理。然而,患者往往难以清晰表达自身的信息需求,导致所获信息与实际需求之间存在差距。已有证据表明,哮喘患者的信息需求尚未得到充分满足,因此,探寻更有效的方法来明确和满足患者在哮喘护理中的信息需求迫在眉睫。
随着互联网的普及,在线资源因其便捷性和丰富性,成为患者获取健康信息的首选。有研究表明,83% 的健康信息消费者会使用通用搜索引擎(如谷歌)来检索相关信息。谷歌趋势作为一款免费工具,能提供特定主题的公众兴趣和信息搜索行为洞察,分析其搜索量数据可有效反映公众对特定健康话题和疾病的认知与关注程度。此前虽有众多研究利用谷歌趋势数据研究公众对各类健康话题的兴趣,但针对哮喘的专项研究尚属空白,该研究正是为填补这一空白而开展。
研究方法
研究人员运用谷歌趋势数据,对 2004 年 6 月 24 日至 2024 年 7 月 1 日期间,全球范围内人们对慢性哮喘疾病的信息搜索行为展开探索。数据收集遵循 Nuti 等人提出的标准化清单,借助 Python 中的 Pytrends 库分两个阶段进行。首先,在全球范围内收集英文搜索数据,涵盖 “asthma”“asthma disease”“asthmatic” 等核心术语;随后,针对伊朗境内进行波斯语搜索查询。除核心关键词外,还获取相关搜索查询和地理趋势信息,并将数据以 CSV 格式下载以便后续分析。谷歌趋势会自动去除短时间内同一人的重复搜索,避免选择偏倚。
研究采用相对搜索量(Relative Search Volume,RSV)这一指标来衡量搜索热度。RSV 通过将特定时期、特定地点的特定搜索量,与同期同地的所有搜索量进行归一化计算得出,取值范围为 0 - 100,1 代表最低相对热度,100 代表最高,0 表示数据不足。
在数据分析阶段,研究人员计算不同时间段的兴趣随时间变化指数,以确定搜索词的兴趣峰值;通过计算 RSV 的均值、标准差、中位数、最大值和最小值进行描述性分析,并利用 Kolmogorov - Smirnov 检验验证变量的正态性;运用谷歌关联工具获取相关搜索词后,通过皮尔逊相关系数对关键词与哮喘症状及相关因素进行相关性分析;借助 Dickey - Fuller 检验等方法分析时间序列数据的平稳性和季节性特征,若存在季节性模式,则进行数据转换使其更适合模型分析;最终,使用自回归综合移动平均模型(Autoregressive Integrated Moving Average,ARIMA),并结合季节自回归综合移动平均模型(Seasonal AutoRegressive Integrated Moving Average with external variables,SARIMAX)和 Pmdarima 库进行预测建模,以估计未来哮喘相关搜索的趋势。
研究结果
描述性分析
对 2004 年以来谷歌英文搜索数据的分析显示,在新冠疫情(COVID - 19)前,人们对哮喘相关搜索的兴趣呈下降趋势;疫情期间,到 2021 年 RSV 逐渐上升,在世界卫生组织宣布新冠为大流行病时达到峰值,随后虽有所下降,但仍高于 2015 - 2018 年水平。20 年间哮喘相关搜索的总 RSV 均值为 41.79 ± 6.07。从地理区域来看,英文搜索中,赞比亚的搜索量最高,其次是牙买加、菲律宾、加纳和埃塞俄比亚;在接下来的五个国家中,澳大利亚、英国、美国、爱尔兰和肯尼亚的搜索量较多。
波斯语搜索数据表明,自 2012 年起,人们对哮喘相关信息的搜索兴趣呈上升趋势。尽管波斯语搜索的平均 RSV 低于全球平均水平,但近年来搜索兴趣显著增加。在地理分布上,伊朗的 RSV 最高,其次是阿富汗。
相关性分析
相关主题的相关性分析表明,在英语中,“air pollution”“infection”“insomnia” 等与哮喘呈正相关;在波斯语中,“Ashma symptoms”“Pediatric asthma”“Shortness of breath” 等与哮喘存在正相关关系(具体相关系数和 P 值见表 1)。
时间序列数据的平稳性和季节性调查
数据分解和 Dickey - Fuller 检验结果显示,英语和波斯语的搜索量均呈现非平稳模式。箱线图可视化展示了哮喘 RSV 的季节性模式,自相关函数(Autocorrelation Function,ACF)用于研究滞后值与数据平稳状态之间的线性关系,ACF 和偏自相关函数(Partial Autocorrelation Function,PACF)图可确定时间序列模型所需的滞后数。
预测模型开发
研究人员运用 ARIMA 模型对英语和波斯语的哮喘相关搜索 RSV 进行预测。首先确定了 ARIMA 模型的合适参数(AIC = 2563.72),预测模型显示,英语搜索中,2024 年上半年模型准确性达到峰值,随后 RSV 呈稳步上升趋势;波斯语搜索中,预测模型显示 RSV 呈上升趋势。
此外,研究人员还运用 SARIMAX 模型进行预测,通过计算平均绝对误差百分比发现,基于 Pmdarima 库开发的 SARIMA 模型误差率最低。综合分析预测模型结果,波斯语搜索中公众对哮喘话题的兴趣呈上升趋势,且未来可能持续上升;而英语搜索量预测显示变化较小,趋势更为稳定。
研究结论与讨论
该研究通过对 2004 - 2024 年谷歌趋势数据的分析,揭示了英语和波斯语使用者在哮喘相关互联网搜索模式和搜索量变化上的显著差异。在波斯语国家,如伊朗,过去十年哮喘相关搜索量显著增加,且未来有望继续上升;英语国家的搜索量除在新冠疫情期间出现高峰外,变化较为平稳。
这种差异反映出不同语言群体在哮喘信息需求上的不同侧重点。英语国家的人们更倾向于搜索空气污染、失眠和感染等与哮喘相关的宽泛话题,这可能得益于当地丰富的哮喘综合信息资源;而波斯语使用者则更关注哮喘的具体方面,如症状、药物治疗和补充疗法等。
从地理区域来看,赞比亚等非洲国家对哮喘信息的搜索兴趣较高,这与非洲地区慢性呼吸道疾病负担日益加重的现状相符,但由于数据有限,实际患病率可能被低估。在伊朗,城市中心居民对哮喘和过敏信息的搜索兴趣更高,这与当地较高的哮喘患病率相关。
研究还发现全球哮喘相关搜索存在周期性模式,基于预测模型结果,建议政策制定者采取措施,为波斯语互联网用户提供哮喘管理的自我护理信息,以提高这一群体的健康意识,满足他们的信息需求。
然而,该研究也存在一定局限性。谷歌趋势工具本身存在不足,它无法解释人们如何使用检索到的信息,仅能捕获谷歌搜索引擎的数据,无法反映其他平台的搜索活动,且搜索结果展示的是相对搜索量,并非实际用户数量,也无法追踪用户的年龄、性别等人口统计学信息。在发展中国家,部分人群可能因网络质量差或网络接入受限而不使用谷歌,这可能导致搜索量增加被误判为公众兴趣提高。此外,研究缺乏哮喘患者信息需求的官方数据,无法探究谷歌搜索趋势与其他社会因素之间的关系。
尽管存在局限性,但该研究首次运用时间序列分析谷歌搜索数据来研究哮喘和过敏领域,充分展示了谷歌趋势数据在评估公众健康意识方面的实用性,为健康组织制定有效策略和合理分配资源提供了重要参考。未来研究可进一步深入探讨影响搜索模式的潜在因素,以及这些因素对不同健康状况的影响,从而更好地服务于不同人群,确保哮喘患者能够获取有效管理疾病所需的信息。