基于LOF-KNN-CSENN混合采样与Stacking集成学习的食品安全抽检分类模型研究及其在风险预警中的应用
《Journal of Food Protection》:Hybrid Sampling and Ensemble Learning for Food Safety Sampling Inspection Classification
【字体:
大
中
小
】
时间:2025年10月26日
来源:Journal of Food Protection 2.8
编辑推荐:
针对食品抽检数据极端类别不平衡导致的模型偏差问题,本研究提出LOF-KNN-CSENN混合采样算法,结合Local Outlier Factor噪声过滤与KNN边界保留技术,有效抑制低质量合成样本生成。通过Stacking集成学习框架融合六种树模型,在真实数据集上实现精度提升0.4–5.6%、F1-score提升0.8–30.7%,SHAP分析揭示生产地址、采样阶段为关键风险因子,为智能监管提供新范式。
在全球供应链日益复杂的背景下,食品安全监管正面临前所未有的挑战。传统人工检测方式存在周期长、成本高、误差率高等瓶颈,而机器学习技术虽能提升检测效率,却受限于食品抽检数据中极端类别不平衡的难题——合格样本占比高达97.27%,不合格样本仅占2.73%(2023年国家市场监督管理总局数据)。这种不平衡会导致模型偏向多数类,造成不合格样本的检测盲区。更棘手的是,食品检测数据具有非线性特征、复杂分布和多类别场景等特点,传统过采样方法如SMOTE(Synthetic Minority Over-sampling Technique)容易生成低质量合成样本和噪声决策边界,进一步影响风险检测准确性。
针对这些挑战,江南大学商学院的研究团队在《Journal of Food Protection》上发表了一项创新研究,提出了一种结合混合采样与集成学习的智能检测框架。该研究基于宁波市市场监督管理局2021年的食品抽检数据(包含10,197个有效样本),通过LOF-KNN-CSENN(Local Outlier Factor-K-Nearest Neighbors-Combined Synthetic Minority Over-sampling Technique and Edited Nearest Neighbors)算法优化数据分布,并采用Stacking集成学习模型提升分类性能,最终借助SHAP(Shapley Additive Explanations)可解释性分析识别关键风险因素,为精准监管提供数据驱动决策支持。
研究采用的关键技术方法包括:1)基于局部离群因子(LOF)的噪声过滤与K近邻(KNN)边界保留的混合采样算法;2)融合随机森林(RF)、XGBoost、CatBoost等六种树模型的Stacking集成学习框架;3)采用最大信息系数(MIC)进行特征选择,筛选出生产地址、采样阶段等9个关键特征;4)通过SHAP博弈论进行特征贡献度量化分析。所有实验均基于宁波地区2021年食品抽检真实数据集,包含食用农产品、餐饮食品、糕点等五大高风险类别。
通过对27类食品的不合格率分析,发现食用农产品(15.8%)、餐饮食品(7.4%)、糕点(7.3%)等五类食品占不合格样本总量的60%,被确定为重点分析对象。特征重要性排名显示,生产地址(MIC=0.800)、采样阶段(0.665)和采样地点(0.622)是最关键的风险因子。
与传统SMOTE、ADASYN等方法相比,LOF-KNN-CSENN在模拟数据集上有效避免了合成样本聚集于多数类区域的问题,保持了数据固有结构,生成更符合真实分布的合成样本。该算法通过LOF阈值(τ=1.5)过滤噪声,KNN置信度阈值(δ=0.7)保留高置信边界样本,实现了质量更高的数据平衡。
通过逐步剔除策略比较不同基模型组合性能,发现meta4配置(包含RF、ET、HistGBM、LGBM、CatBoost和XGBoost六种模型,以逻辑回归(LR)为元模型)综合表现最优,准确率达0.8464,精确度0.6696,F1-score 0.6804,均显著高于单一模型。
与单一采样策略相比,LOF-KNN-CSENN结合Stacking的方案在精确度上提升0.4–5.6%,F1-score提升0.8–30.7%。SHAP分析进一步揭示:合同制造和自制食品(样本来源)的低值(蓝色点)与高风险相关;生产地址中的跨省生产风险显著高于本地生产;餐饮环节采样风险高于流通环节。这些发现与现有研究一致,表明小作坊卫生条件差和合同生产质量管控松散是重要风险来源。
研究结论表明,LOF-KNN-CSENN算法通过双重过滤机制有效解决了传统SMOTE在食品数据中产生的伪边界样本问题,而Stacking集成模型通过多模型互补优势显著提升了泛化能力。该研究不仅为极端不平衡数据分类提供了新技术路径,还通过可解释性分析揭示了多因素协同作用的风险机制,推动监管策略从孤立监管向供应链整体治理转变。提出的动态阈值调整机制(根据监管需求灵活设定分类阈值)可实现资源优化配置,为高风险食品类别(如食用农产品)和场景(如餐饮阶段)的靶向监管提供量化依据。
研究的局限性在于样本缺乏跨年度跨区域数据,未能覆盖风险等级分级和多源数据融合。未来可结合区块链溯源和物联网技术,构建时空动态风险模型,实现全流程风险模拟与智能预警。这项研究为食品安全智能监管提供了创新框架,通过混合采样和集成学习的协同创新,有效缓解了类别不平衡问题,增强了多类别食品检测中不合格样本的发现能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号