一种基于脑电图(EEG)的机器学习框架,用于诊断急性睡眠剥夺

《Frontiers in Physiology》:An EEG-based machine learning framework for diagnosing acute sleep deprivation

【字体: 时间:2025年11月18日 来源:Frontiers in Physiology 3.4

编辑推荐:

  急性睡眠剥夺对认知功能的影响显著,本研究利用61通道EEG数据,提取统计、频谱、功能连接和图论特征,对比分析传统机器学习(LightGBM、XGBoost、RF、SVC)和深度学习(CNN、LSTM、Transformer)模型检测急性睡眠剥夺的效能。结果显示,传统模型在跨个体验证中表现更优(最高准确率68.23%),SHAP分析表明前额叶theta波段调制和beta波段功能连接是关键特征。

  睡眠剥夺对认知功能、行为表现以及健康产生深远影响,因此,开发一种可靠的检测方法具有重要意义。本文探讨了如何利用机器学习技术,特别是基于脑电图(EEG)数据,来区分急性睡眠剥夺和正常休息状态。通过分析多通道EEG信号,研究提出了一种综合的特征提取方法,结合了统计特征、频谱特征、功能连接性指标和图论指标,为构建一个高精度、高可解释性的模型提供了基础。研究结果表明,某些机器学习模型在无个体分割的条件下表现优异,而在考虑个体差异的情况下,模型的性能有所下降,但整体仍具有实际应用价值。此外,研究还通过特征重要性分析揭示了关键的神经标记,为未来研究提供了新的方向。

### 睡眠剥夺的神经影响

睡眠剥夺会导致多种神经和行为上的变化,这些变化影响个体的认知能力,包括注意力、执行功能和视觉运动协调等。研究表明,特定脑区会进入类似睡眠的状态,即使个体仍然清醒,这种现象称为“局部睡眠”。睡眠剥夺会降低这些脑区之间的功能性连接,从而影响信息处理效率。同时,大脑的频率活动也会发生变化,表现为低频波段(如delta和theta)的功率增加,而高频波段(如alpha和beta)的功率下降,尤其在与注意力和视觉处理相关的皮层区域更为明显。

这些神经变化在不同脑区表现不同。例如,前额叶区域在长期睡眠剥夺后表现出显著的功率变化,而顶叶和枕叶区域则在24小时的睡眠剥夺后显示出不同的特征。总体而言,睡眠剥夺对大脑功能的影响是广泛而复杂的,这使得基于EEG的检测方法成为一种有前景的工具。

### 机器学习在EEG分析中的应用

机器学习在EEG信号分析中得到了广泛应用,尤其是在睡眠研究领域。传统方法如随机森林(RF)、XGBoost和LightGBM等,因其强大的分类能力和对非线性关系的建模能力,已被证明在睡眠质量评估和睡眠障碍检测中具有显著优势。这些模型通常依赖于手工提取的特征,但它们的泛化能力和解释性使其在实际应用中表现出色。

相比之下,深度学习模型如卷积神经网络(CNN)、长短期记忆网络(LSTM)和Transformer,能够直接从原始EEG信号中学习复杂的时空特征,表现出更强的模式识别能力。然而,这些模型通常需要大量数据和计算资源,且在数据量有限的情况下容易过拟合。因此,研究在评估这些模型时,考虑了两种策略:一种是基于单个时段(epoch)的评估,另一种是基于个体的评估,以更好地理解模型的泛化能力。

### 实验方法与数据处理

本研究使用了一个公开的、眼睛睁开的休息状态EEG数据集,包含71名健康的年轻成年人(34名女性,37名男性),年龄范围为17至23岁,平均年龄为20岁,标准差为1.44岁。实验设计采用的是单个被试内部的对照模式,每个被试完成两个条件下的测试:一个是在正常睡眠后进行的清醒状态测试,另一个是在急性睡眠剥夺后的测试。两组测试之间间隔7天至1个月,以减少序列效应的影响。为了降低昼夜节律变化的影响,所有测试均在固定的时段(早晨或下午)进行,大多数被试的测试时间间隔不超过1.5小时。

在数据预处理阶段,研究采用了EEGLAB工具箱,使用MATLAB平台进行数据处理。首先,数据经过独立成分分析(ICA)进行去噪处理,去除与眼部和肌肉活动相关的干扰成分。然后,数据被重新参考为公共平均参考(CAR),以提高信号的稳定性。接着,EEG信号被分割为连续且不重叠的20秒时段,这是基于对时间分辨率和频谱估计稳定性的权衡选择的。在此基础上,进一步剔除了质量不高的时段,最终数据集中包含了1,681个时段,其中858个为正常睡眠后的清醒状态,823个为急性睡眠剥夺后的状态。

在特征提取方面,研究提取了四类特征:时频特征、频谱特征、功能连接性特征和图论特征。时频特征使用连续小波变换(CWT)计算,而频谱特征则通过Welch方法估计。功能连接性特征包括相位锁定值(PLV)和相干性(coherence),用于衡量不同脑区之间的信息传递效率。图论特征则从完整的PLV邻接矩阵中提取,包括节点强度、加权聚类系数、全局效率、特征路径长度和模块度等。所有特征被合并为一个高维向量,每个时段对应一个2481维的特征集。

### 模型训练与评估

研究对多种机器学习模型和深度学习模型进行了训练和评估。机器学习模型包括随机森林(RF)、XGBoost、LightGBM和支持向量分类器(SVC),而深度学习模型包括CNN、LSTM和Transformer。这些模型在两个评估条件下进行训练:一种是不考虑个体分割的评估,另一种是考虑个体分割的评估,以确保模型在未知个体上的泛化能力。

在不考虑个体分割的条件下,CNN模型表现最佳,达到了95.72%的准确率,其次是XGBoost(95.42%)、LightGBM(94.83%)、RF(94.53%)和SVC(85.25%)。然而,当考虑个体分割时,所有模型的性能都下降了,其中RF模型表现最佳,准确率为68.23%,其次是XGBoost(66.36%)、LightGBM(66.21%)、CNN(65.35%)和SVC(65.08%)。Transformer和LSTM模型的准确率最低,分别为63.35%和61.70%。这一结果表明,尽管深度学习模型在某些条件下表现优异,但它们在面对不同个体时可能缺乏足够的泛化能力。

模型的评估指标包括准确率、F1分数和ROC曲线下面积(AUC)。通过混淆矩阵,研究计算了这些指标,并进一步使用Friedman检验和Dunn检验来评估模型性能的显著性。在无个体分割的条件下,Friedman检验显示所有模型之间存在显著差异,而在考虑个体分割的情况下,模型之间的差异不显著,表明模型在跨个体泛化上面临挑战。

### 特征重要性分析

为了增强模型的可解释性,研究采用了SHAP(Shapley Additive exPlanations)分析方法,该方法通过计算每个特征对模型预测的贡献来评估其重要性。结果显示,随机森林和XGBoost模型中,最重要的特征包括前额叶theta波段的平均振幅调制(Fp2_theta_meanAM、Fp1_theta_meanAM和Fpz_theta_meanAM)以及beta波段的相干性(Coh_beta)。这些特征与已知的睡眠剥夺神经效应一致,表明模型能够捕捉到与睡眠剥夺相关的关键神经活动。

此外,SHAP分析还揭示了不同模型在特征选择上的差异。例如,随机森林模型更倾向于使用Fp2_theta_meanAM作为主要预测因子,而XGBoost模型则更关注Coh_beta。尽管两者都强调了theta波段和beta波段的重要性,但特征的重要性排名不同,反映了不同算法对神经标记的偏好。

### 研究的局限性与未来方向

尽管本研究取得了一定的成果,但仍存在一些局限性。首先,所使用的数据集来源于一个相对同质化的年轻健康人群,可能限制了模型在更广泛人群中的适用性。因此,未来的研究应尝试在更多样化的样本中验证模型的有效性。其次,本研究将急性睡眠剥夺视为一个二元状态,而实际上其影响可能是连续的,这种简化可能掩盖了更复杂的认知和生理变化。因此,未来可以考虑采用多分类或回归框架,以更全面地评估睡眠剥夺的影响。

此外,研究中使用的公共平均参考(CAR)方法可能受到电极配置和头皮覆盖的影响,因此未来可以探索其他参考方法,以减少可能的参考偏差。最后,当前的研究使用了非重叠的20秒时段进行分析,虽然有助于稳定频谱估计,但可能忽略了快速变化的神经活动。未来的研究可以考虑采用更细粒度的窗口策略,以更好地捕捉动态的神经变化。

### 结论与展望

本研究通过结合机器学习和深度学习方法,为急性睡眠剥夺的检测提供了一种新的思路。尽管在考虑个体分割的情况下,模型的性能有所下降,但总体上仍具有较高的准确率和良好的泛化能力。这些结果表明,基于EEG的机器学习方法在实际应用中具有潜力,特别是在需要持续监测和及时干预的场景中。

未来的研究可以进一步优化模型,使其在更广泛的人群中表现稳定,并探索更复杂的模型结构和特征提取方法。此外,结合其他生理信号(如光体积描记(PPG))可能有助于开发更全面的监测系统,从而实现非侵入性的睡眠剥夺检测。最终,这些方法有望在医疗、交通、制造等需要高度警觉的领域中发挥重要作用,帮助识别和干预睡眠剥夺带来的潜在风险。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号