基于近红外光谱技术的葡萄酒葡萄成熟度分类:采用SG-SFLA-Transformer模型

《International Journal of Fruit Science》:Near-Infrared Spectroscopy-Based Maturity Classification of Wine Grapes Using the SG-SFLA-Transformer Model

【字体: 时间:2025年12月05日 来源:International Journal of Fruit Science 2.5

编辑推荐:

  本研究通过结合Savitzky-Golay平滑、Shuffled Frog Leaping Algorithm特征波长选择及Transformer模型,构建了赤霞珠葡萄酒葡萄成熟度高精度分类框架。基于360个样本的近红外光谱(1100-1400 nm、1770-1857 nm、1910-2050 nm)和物化参数(SSC、TA),经多预处理方法筛选最优组合,采用SG-SFLA提取20个特征波长,最终实现94.44%的分类准确率,显著优于传统机器学习和深度学习模型。

  
该研究针对赤霞珠葡萄成熟度检测难题,创新性地构建了基于Savitzky-Golay平滑预处理、Shuffled Frog Leaping Algorithm(SFLA)特征筛选与Transformer深度学习模型的复合型分类体系。研究团队通过采集360份赤霞珠葡萄样本,在四个成熟阶段(I至IV)同步获取近红外光谱数据与物化参数,系统验证了该技术路线的有效性。

在数据预处理环节,研究者对比了8种预处理方法。实验表明,单独使用Savitzky-Golay平滑预处理可显著消除光谱噪声(信噪比提升约37%),同时保留关键特征波长。这一发现源于其特有的多项式拟合算法,能有效平滑高频噪声而不丢失低频特征信息。与单一预处理方法相比,复合预处理策略(如SG-FD组合)虽在个别波段增强信号,但整体分类精度下降约2.3%-5.8%,验证了单一预处理方法的优化潜力。

特征波长筛选阶段,通过物理化学特性指导的SFLA算法展现出独特优势。传统方法SPA和CARS分别筛选出7个和8个关键波长,而SFLA结合光谱特征与化学组学知识,最终锁定20个特征波长(覆盖78.43%的原始光谱数据)。特别值得关注的是,位于1100-1400nm和1910-2050nm的三个特征波段(1057.1nm、1110.07nm、1339.21nm)与糖酸代谢密切相关。其中1339.21nm处的吸收峰与酯类物质振动特征高度吻合,该波段权重系数达0.38,成为分类最敏感的波长区间。

模型构建方面,Transformer架构通过三阶段优化显著提升性能:1)采用多头注意力机制,在16层编码器中实现跨波长关联建模;2)引入位置编码增强时序特征提取能力;3)通过残差连接与层归一化稳定训练过程。对比实验显示,该模型在测试集准确率达94.44%,较CNN(89.21%)、GRU(82.15%)等主流模型提升5.23%-12.29%。值得注意的是,模型在验证集表现稳定,训练集与测试集曲线高度吻合,验证了其泛化能力。

物化参数分析表明,可溶性固形物(SSC)与总酸(TA)呈现显著阶段性变化:成熟阶段II至III时SSC增幅达21.7%,而TA下降12.3%,这与葡萄细胞壁解体、有机酸代谢的生物学过程一致。近红外光谱特征与物化参数的相关系数达0.82(p<0.001),证实光谱数据能有效反映成熟度指标。

研究首次将Transformer模型应用于葡萄成熟度分类,突破传统机器学习模型在光谱数据处理中的局限。模型在保留全光谱特征(900-2500nm)的同时,通过SFLA算法动态筛选出与糖酸代谢相关的关键波段(覆盖主要吸收峰),显著降低计算维度。训练过程中采用阶梯式学习率衰减策略(每50个epoch衰减0.1倍),有效解决了梯度消失问题,模型在200个epoch后达到稳定收敛状态。

在对比实验中,Transformer模型展现出多维度优势:1)在SPA筛选的7个波长基础上,准确率提升8.7%;2)相较CARS筛选的8个波长,分类精度提高6.2%;3)与PLS-DA(78.6%)、SVM(85.4%)、随机森林(88.1%)等传统方法相比,F1值提升至93.7%,验证了深度学习在非线性特征提取上的优势。值得注意的是,模型在成熟阶段III与IV的边界识别上表现突出,召回率高达96.8%,这得益于Transformer的多头注意力机制对光谱差异的精准捕捉。

该技术体系在工业应用中具有显著推广价值:1)单次样本处理时间缩短至3.2秒(传统方法需45秒);2)设备成本降低60%(仅需基础近红外光谱仪);3)误判率控制在1.7%以内(经三次重复实验验证)。但研究也指出生成数据集存在局限性,主要受限于:1)样本采集区域单一(仅来自宁夏贺兰山东麓);2)成熟阶段划分标准与传统农艺学存在差异(IV阶段样本占比24.7%);3)设备参数固定(分辨率3.2nm,积分时间10ms)。

未来优化方向包括:1)构建多源异构数据融合框架(整合可见光与热成像数据);2)开发非破坏性检测模块(如便携式光纤光谱仪);3)建立跨品种迁移学习模型(已完成梅洛品种的初步验证,准确率89.3%)。研究团队计划在2025年开展规模化田间试验,目标覆盖10个主要葡萄酒产区,采集5000+样本建立通用数据库。

该成果对智慧农业发展具有重要启示:通过建立"物理机理-数学建模-计算验证"的闭环研发体系,既能突破传统物化检测的时空限制,又可避免单一算法在复杂光谱环境中的过拟合问题。特别在应对气候变化导致的成熟度偏移(研究显示温度每升高1℃,成熟期缩短2.3天),该模型展现出更强的适应性,为精准 viticulture 提供了可扩展的技术方案。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号