深度学习与数据驱动提升中亚食物图像识别精度,助力健康饮食监测

【字体: 时间:2025年04月24日 来源:Scientific Reports 3.8

编辑推荐:

  在中亚,饮食相关疾病负担重。研究人员开发中亚食物场景数据集(CAFSD)并训练计算机视觉模型。结果显示,YOLOv8xl 模型表现最佳(mAP50为 0.677)。该研究有助于推进食物与饮食追踪应用,提升营养认知。

  在当今数字化时代,人们对健康饮食的关注度日益提高。然而,在中亚地区,饮食相关疾病的负担却不容小觑。据全球疾病负担研究显示,2019 年中亚地区因饮食导致的心血管疾病(CVD)死亡人数和伤残调整生命年(DALYs)大幅增加。这背后的原因与当地居民的饮食习惯密切相关,比如高盐摄入、过多摄入空热量食物、水果、坚果、种子和蔬菜摄入不足,以及 Omega - 3 水平较低等。与此同时,随着计算机视觉(CV)、智能手机和社交媒体的蓬勃发展,食物计算这一新兴的跨学科领域崭露头角。它旨在通过视觉数据识别、检索和推荐食物,对人们的健康饮食管理有着重要意义。但目前开发可靠的食物信息检索 CV 模型面临一个难题,即缺乏大规模高质量的数据集。现有的食物数据集大多针对西方、地中海、中国等菜系,且主要解决单食物分类问题,无法满足现实中一餐包含多种食物的场景需求。为了解决这一关键问题,来自哈萨克斯坦纳扎尔巴耶夫大学(Nazarbaev University)的研究人员 Aknur Karabay 、Huseyin Atakan Varol 和 Mei Yen Chan 开展了一项重要研究。他们开发了一个大规模高质量的中亚食物场景数据集(CAFSD),并训练了用于自动食物检测的计算机视觉模型。该研究成果发表在《Scientific Reports》上,为解决中亚地区饮食健康问题以及推进食物计算领域的发展带来了新的曙光。
研究人员在开展这项研究时,运用了多种关键技术方法。首先是数据集的构建,他们从搜索引擎收集开源网络图像,同时也采集了日常生活中的食物图像,还通过抓取开源视频并每秒提取一帧的方式扩充数据。为保证数据质量,利用 Python Hash Image 库去除重复图像,并过滤掉小于 30 kB 的图像。在数据集标注方面,使用 Roboflow 平台,采用矩形边界框格式对食物进行标注,标注过程分两个阶段,先基于 18 个粗类标注,再细化到 239 个类。模型评估选用了 YOLO 系列模型,尤其是 YOLOv8,在 PyTorch 平台上利用在 COCO 数据集上预训练的模型进行迁移学习,训练在 Nvidia DGX A100 服务器的单个 Tesla V100 GPU 上进行,并使用 mAP50和 mAP95两个指标评估模型性能。

下面来看具体的研究结果。在数据集方面,CAFSD 包含 21306 张图像,涵盖 239 个食物类别,共 69856 个实例。这些图像来源广泛,包括从搜索引擎获取的 15939 张图像、日常生活收集的 2324 张图像以及从视频中提取的 3043 张图像。数据集中的图像在质量、光照条件和拍摄设备等方面具有多样性,且数据分布不均衡,每个类别的实例数量最少 40 个,最多达 3050 个。在模型训练与评估中,研究人员将数据集划分为训练集(17046 张图像,占约 80%)、验证集(2084 张图像,占约 10%)和测试集(2176 张图像,占约 10%),并遵循每个类在各集中至少有 5 个实例的条件。训练时采用迁移学习,以 0.001 的学习率、16 的批次大小、640×640 像素的图像尺寸进行 150 个 epoch 的训练。结果表明,YOLOv8xl 模型性能最佳,测试集的 mAP50和 mAP95分数分别为 0.677 和 0.601,不同模型在验证集和测试集上的 mAP50和 mAP95指标接近,说明训练过程未出现过拟合。同时,研究还对比了不同模型的推理时间,如 YOLOv8xl 和 YOLOv8n 在 Nvidia Tesla V100 GPU 上的推理时间分别为 5.1 ms 和 0.7 ms ,在 Nvidia RTX4090 GPU 上随着模型尺寸增大,推理时间从 1.6 ms 增加到 7.8 ms。

在讨论部分,研究人员指出食物图像的可变性是 CV 在食物领域面临的主要挑战之一。光照条件、相机角度等环境和技术因素,以及烹饪风格、食材差异等,都使得食物图像识别比其他图像任务更具难度。此外,同一类食物由于烹饪风格和文化影响,外观差异较大,存在细粒度分类问题。同时,图像背景杂乱和每张图像中边界框数量过多也会影响模型性能。尽管面临诸多挑战,但基于 CAFSD 的训练结果显示,模型在泛化、定位和预测 239 种食物类别方面表现出色,与公开数据集的结果相比有显著提升。通过对数据集中肉类和乳制品类别的分析发现,中亚地区肉类消费以牛肉、羊肉、鸡肉为主,乳制品消费种类多样,如 smetana、kurt、kymyz - kymyryan 等。这反映了当地的饮食文化和习惯,也为后续饮食健康研究提供了数据支持。

综上所述,该研究开发的 CAFSD 为计算机视觉辅助的食物和饮食追踪应用做出了重要贡献。它可应用于智能餐厅、超市等场景,有助于提升人们的营养素养,增强饮食意识,促进更健康的食物选择,进而对当地农业、环境和食品系统产生积极影响。未来,研究人员计划将模型集成到智能手机应用中,并开发包含宏观营养价值的数据集及相应预测模型,同时扩展数据集的组成和类别数量,以更好地服务于公共健康政策的制定,为改善中亚地区居民的健康状况提供有力支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号