编辑推荐:
研究人员为预测巴斯克地区伊蚊数量,用机器学习建模,发现温度等影响大,RF 模型预测性佳。
在全球范围内,蚊子传播的疾病如登革热、寨卡病毒和基孔肯雅热等,正日益从热带和亚热带地区向温带地区蔓延,对公共卫生构成了重大威胁。在西班牙的巴斯克地区,随着气候条件的变化,入侵蚊子的数量不断增加,这使得当地传播这些疾病的风险也在上升。然而,在非流行地区,由于缺乏当地蚊媒疾病病例和媒介监测信息,预测蚊子数量变得极具挑战性。为了解决这一问题,来自巴斯克应用数学中心(M3A)、巴斯克农业研究与发展研究所(NEIKER)等机构的研究人员开展了相关研究,其成果发表在《Parasites & Vectors》上。
研究人员利用巴斯克地区的蚊子卵计数数据和气象数据,通过多种技术方法来探究蚊子数量与环境因素之间的关系。在数据收集方面,蚊子卵计数数据是通过在 63 个城市设置的诱卵器获取的,这些诱卵器按照欧洲疾病预防控制中心(ECDC)的指导方针进行分布,每个城市通常有两个采样区域,每个区域放置 5 个诱卵器,每 14 天进行一次采样 。气象数据则来自巴斯克气象机构(Euskalmet)的多个气象站,包括温度、降水和湿度,且被处理为每日平均值和累计值 。
在数据处理和模型构建上,研究人员先对数据进行预处理,包括统一数据间隔、处理缺失值、去除异常值等。之后,选择了广义线性模型(GLM)、季节性自回归综合移动平均模型(SARIMAX)、随机森林(RF)模型和条件推理树(CTree)模型进行研究。同时,采用了增强迪基 - 富勒(ADF)检验来判断时间序列的平稳性,并运用平均绝对误差(MAE)、均方根误差(RMSE)和决定系数(R2)等指标来评估模型性能。
研究结果显示:
- 探索性统计分析:通过描述性统计发现,所有变量均呈偏态分布且过度离散,不符合正态分布。散点图表明气象变量和蚊子卵数量之间无明显线性关系,但斯皮尔曼相关性分析证实,卵数量与温度之间存在强单调关系,与湿度呈中等正相关,与降水量呈低负相关。此外,还确定了各气象变量的最佳滞后时间,如温度与卵数量在滞后 -1 时相关性最高,意味着温度变化对卵生产的影响有 2 周的延迟 。
- 拟合和误差分析:在训练数据集上,RF 模型表现最佳,能解释 98% 的方差;在测试数据集上,GLM 模型表现更好。在比斯卡亚(Bizkaia),RF 模型在训练集上表现良好,但测试集上表现不佳,这可能是由于训练数据和测试数据的特征差异导致的,2023 年比斯卡亚的卵计数异常高。总体而言,RF 模型在预测蚊子数量上较为合适,SARIMAX 模型表现也不错。并且,研究人员预计 2024 年蚊子数量会低于前一年。
研究结论和讨论部分指出,环境因素尤其是温度,在预测巴斯克地区入侵伊蚊数量方面起着重要作用。尽管统计和机器学习模型在一定程度上有效,但由于气候多变和数据收集的挑战,预测仍然具有难度。持续的蚊子监测和改进预测模型对于加强公共卫生策略至关重要。该研究为非流行地区评估蚊媒疾病风险提供了有价值的见解,有助于制定更有效的预防和控制措施。不过,研究结果在不同区域的推广存在局限性,未来研究可考虑更短的时间间隔收集数据,以及优化数据集的划分方法,以提高模型性能。
这项研究利用机器学习技术,为预测非流行地区蚊子数量提供了新的思路和方法,对于预防和控制蚊媒疾病的传播具有重要意义,为公共卫生领域的决策提供了有力支持 。
濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙
10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�
婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷
闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�
濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷