利用来自 Apple Watch 和 Fitbit 设备的数据,通过机器学习(ML)方法预测个人可能参与的体育活动类型
《International Journal of Clinical and Health Psychology》:Predicting the Types of Physical Activities Using Data from Apple Watch and Fitbit Devices Based on Machine Learning (ML) Methods
【字体:
大
中
小
】
时间:2025年12月01日
来源:International Journal of Clinical and Health Psychology 4.4
编辑推荐:
可穿戴设备健康监测与多模型分类研究:基于Apple Watch和Fitbit的数据分析显示,采用SMOTE平衡采样后,LGBM算法在活动类型分类中表现最优,准确率达0.876且F1-score达0.875,较其他模型(如XGB、RF)提升显著,尤其在区分高代谢运动(如7 METs跑步)时具有更强分类能力。研究验证了数据平衡对提升模型鲁棒性的关键作用,并指出未来可结合实时处理优化与医疗场景应用拓展。
### 研究背景与意义
随着可穿戴设备的普及,智能手表和健身追踪器已成为健康监测的重要工具。这些设备通过传感器收集用户的生理数据(如心率、步数、运动类型等),为个性化健康管理提供了基础。然而,如何从大量传感器数据中准确分类用户活动类型(如行走、跑步、静止等),并解决数据不平衡问题,仍是当前研究的关键挑战。
本研究以Apple Watch和Fitbit设备为数据源,通过对比8种机器学习模型(包括随机森林、梯度提升树、K近邻等)在不同数据平衡策略下的性能,提出了一种基于LightGBM(轻量级梯度提升机)的分类模型。该模型在平衡数据集上表现出最优的准确率和F1分数,尤其在识别高强度运动(如跑步7 METs)方面表现突出。这一成果不仅验证了机器学习在可穿戴设备数据分析中的潜力,还为后续研究提供了优化方向。
### 研究方法与数据
#### 1. 数据来源与预处理
研究团队从Apple Watch和Fitbit设备中获取了共计6,264条用户活动数据,涵盖6种运动类型:平躺、静坐、自定步速行走、跑步3 METs、跑步5 METs和跑步7 METs(METs为代谢当量,衡量运动强度)。数据预处理包括:
- **缺失值处理**:用特征平均值填充缺失值。
- **文本规范化**:统一数据格式(如性别编码为数值型)。
- **数据标准化**:通过缩放消除不同量纲特征的影响。
#### 2. 模型选择与对比
研究对比了8种机器学习模型,涵盖集成学习(随机森林、梯度提升树)、元学习(AdaBoost)和实例学习(K近邻)等框架。具体模型包括:
- **LightGBM**:基于梯度提升的树模型,擅长处理高维数据且计算效率高。
- **Extra Trees**:通过随机特征和节点分裂构建集成树模型,减少过拟合风险。
- **XGBoost**:优化后的梯度提升算法,内置正则化防止过拟合。
- **随机森林(RF)**:通过自助采样和多数投票机制提升鲁棒性。
- **Bagging**:通过自助采样聚合多个弱学习器降低方差。
- **K近邻(KNN)**:基于局部邻域的简单分类方法,但对数据分布敏感。
- **Nu-SVC**:支持向量机变体,通过调整核函数和正则化参数适应不同数据集。
- **AdaBoost**:通过权重调整逐步优化弱学习器组合。
#### 3. 数据平衡策略
针对数据集中少数类样本过少的问题,研究采用以下方法:
- **SMOTE(合成 minority over-sampling technique)**:通过插值生成合成样本,避免简单复制导致的过拟合。
- **ADASYN**:动态调整合成样本生成比例,优先处理困难样本(Hard Examples)。
- **对比实验**:分别评估平衡与非平衡数据下的模型性能,验证数据预处理的有效性。
#### 4. 评估指标与实验设计
研究使用以下核心指标:
- **准确率(Accuracy)**:预测正确的样本占总样本的比例。
- **F1分数(F1 Score)**:精确率与召回率的调和平均,衡量平衡分类任务中的综合性能。
- **训练时间(Training Time)**:模型训练耗时,反映算法效率。
实验采用5折交叉验证,确保结果泛化性。通过方差分析(ANOVA)验证LGBM模型性能提升的显著性(p值<0.05)。
### 研究结果与分析
#### 1. Apple Watch数据集表现
- **未平衡数据**:LGBM以83.3%的准确率和83.3%的F1分数位列第一,显著高于其他模型(如随机森林的81.9%)。
- **SMOTE平衡后**:LGBM准确率提升至87.6%,F1分数达87.6%,较未平衡数据提高约4%。其中,跑步7 METs的AUC(曲线下面积)最高,表明模型能有效区分高强度运动。
- **其他模型对比**:
- XGBoost和Extra Trees在准确率上紧随其后,但F1分数低于LGBM。
- KNN和Nu-SVC因对数据分布敏感,性能相对较弱。
- AdaBoost训练时间最短(0.07秒),但准确率仅41.9%,效率与效果严重失衡。
#### 2. Fitbit数据集表现
- **未平衡数据**:LGBM仍以91.9%的准确率和91.9%的F1分数领先,远超次优的Extra Trees(91.8%)和XGBoost(91.2%)。
- **SMOTE平衡后**:LGBM准确率进一步升至93.0%,F1分数达93.0%,验证了数据平衡对少数类识别的提升效果。
- **模型效率对比**:KNN训练时间最短(0.02秒),但准确率仅为75.3%;XGBoost和LGBM因处理高维数据需要更长时间,但性能优势显著。
#### 3. 平衡策略对比
- **SMOTE vs. ADASYN**:在Apple Watch数据集上,SMOTE的F1分数(87.6%)高于ADASYN(86.4%),可能因ADASYN过度合成导致噪声增加。在Fitbit数据集上,SMOTE的F1分数(93.0%)同样优于ADASYN(92.3%)。
- **数据平衡对性能的影响**:无论Apple Watch还是Fitbit,平衡数据集下的模型准确率均显著高于未平衡数据集,验证了SMOTE的有效性。
### 研究贡献与局限性
#### 1. 贡献
- **模型优化**:首次系统对比8种机器学习模型在两种主流设备上的表现,明确LGBM为最优选择。
- **数据平衡策略验证**:通过SMOTE与ADASYN对比,证明SMOTE在生成合成样本时更少引入噪声。
- **实际应用价值**:模型可嵌入智能手表系统,实时识别运动类型并推送健康建议,例如预警久坐或高估运动强度。
#### 2. 局限性
- **设备差异未深入探讨**:Apple Watch和Fitbit的传感器精度、采样频率不同,可能影响模型迁移能力。
- **数据规模限制**:研究样本量较小(Apple Watch 3,656条,Fitbit 2,608条),未来需扩大数据集验证泛化性。
- **计算效率权衡**:LGBM在平衡数据集上的训练时间显著增加(较未平衡数据慢约2倍),需优化算法或硬件资源。
### 结论与未来方向
本研究证实,通过SMOTE平衡数据后,LightGBM模型在两类设备上均表现出最佳分类性能,准确率最高可达93.0%。这一结果为可穿戴设备的数据分析提供了可靠工具,尤其在健康管理领域具有潜在应用价值。
未来研究可聚焦以下方向:
1. **跨设备泛化性**:验证模型在佳明、华为等其他设备上的适用性。
2. **实时处理优化**:改进LGBM的并行计算能力,适应移动端低延迟需求。
3. **多模态融合**:整合心率、血氧、GPS等多源数据提升分类精度。
4. **个性化适配**:根据用户年龄、体重等特征动态调整模型参数。
### 实际应用场景
- **健康管理**:实时监测用户活动类型,预警久坐或高强度运动超负荷。
- **保险精算**:结合运动数据评估用户健康风险,优化保险定价策略。
- **康复训练**:为术后患者提供运动类型识别和康复进度跟踪。
- **体育科学**:分析运动员训练数据,优化训练计划。
该研究为可穿戴设备的数据处理提供了方法论参考,其开源代码和数据库(通过申请可获取)将推动后续研究进展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号