基于机器学习方法的脑电图信号在神经系统疾病性别特异性诊断中的关键作用
《Scientific Reports》:Critical role of EEG signals in assessment of sex-specific insights in neurological diagnostics via machine learning approach
【字体:
大
中
小
】
时间:2025年12月11日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对神经疾病诊断中性别偏倚问题,通过机器学习方法分析大规模脑电图(EEG)数据集,首次系统评估了生物性别(Sex)在EEG信号中的可检测性及其对病理检测的影响。研究人员采用轻量级卷积神经网络(CNN)在TUEG、TUAB和NMT三个数据集上实现了65%-80%的性别分类平衡准确率(BAcc),发现性别特异性模式虽显著存在却不影响病理检测性能。该研究为开发无偏见的神经AI诊断模型提供了重要依据,对推动精准医疗具有重要意义。
在神经疾病诊断领域,一个长期被忽视的问题正逐渐浮出水面:性别偏倚如何影响诊断准确性?美国食品药品监督管理局(FDA)曾因女性患者风险过高而暂停8种处方药的经历,揭示了医学研究中系统性偏倚的严重性。从自闭症谱系障碍(Autism Spectrum Disorder)男性诊断率是女性四倍的现象,到阿尔茨海默病在不同性别中的差异表现,这些事实都指向一个核心问题:我们是否真正理解了性别对大脑功能的影响?
传统神经影像研究多聚焦于大脑结构差异,但最新综合研究表明,在控制全脑体积后,大多数结构差异并不显著。这促使科学家将目光转向具有更高时间分辨率的脑电图(EEG)技术,以期捕捉大脑动态活动的细微差别。然而,EEG分析面临两大挑战:信号中的固有噪声干扰,以及机器学习模型在面对分布偏移(distribution shift)时的泛化能力不足。更关键的是,现有研究多基于小规模数据集,可能导致结论的片面性和不可靠性。
《Scientific Reports》最新发表的研究针对这些问题展开了深入探索。研究团队创新性地采用多数据集交叉验证策略,利用三个大规模EEG数据集——TUEG(14,987名参与者)、TUAB(1,652名参与者)和NMT(2,417名参与者),系统评估了生物性别在EEG信号中的可检测性(Sex Detectability, SD),并首次探讨了性别不平衡对病理检测的潜在影响。
研究人员主要运用了轻量级卷积神经网络(ShallowNet)架构,该模型包含时序和空间卷积层,后接平方非线性和平均池化操作。关键技术方法包括:采用21个通用通道的统一预处理流程,使用振幅梯度分析(Amplitude Gradients Analysis, AGA)进行特征可视化,通过零样本(Zero-Shot)性能评估模型泛化能力,并对比了EEGNet、Deep4Net等多种神经网络架构的性能差异。所有实验均采用平衡准确率(Balanced Accuracy, BAcc)作为核心评估指标,以应对数据集不平衡问题。
研究发现,即使在不同的临床人群中,生物性别也能从EEG信号中被有效识别。在正常人群(Normal)中,ShallowNet模型 achieved 最高的分类性能,平衡准确率达到80%;在异常人群(Abnormal)中性能稍降,但仍保持在65%以上。这一结果在不同数据集间表现出良好的一致性,证实了性别特异性神经模式的存在具有普遍性。
当模型在跨数据集测试时,性能出现明显下降,特别是在TUH数据集与NMT头皮EEG数据集之间的转换中。这种分布偏移带来的性能衰减揭示了当前EEG分析模型的一大局限:尽管性别特征可被检测,但其泛化能力仍受数据异质性制约。有趣的是,在异常人群中,模型的跨数据集表现相对更好,暗示病理状态可能增强了某些神经特征的普遍性。
针对NMT数据集中男性样本是女性两倍的显著不平衡现象,研究进行了深入分析。通过独立样本T检验发现,男女亚组在病理检测准确率上无显著差异(t(38)=-0.047, p=0.962)。这一结果表明,尽管性别特征可被机器学习模型识别,但在该数据集中,性别不平衡并未对病理检测质量产生实质性影响。
通过振幅梯度分析(AGA),研究揭示了不同频率波段在性别分类中的关键作用。theta(4-8 Hz)、alpha(8-12 Hz)和beta(12-30 Hz)波段被证明是性别分类的最重要特征,而不同临床状态(正常vs异常)下这些特征的利用模式存在明显差异。
在病理检测任务中,所有频率波段(特别是0-12 Hz的低频范围)都显示出重要性,且男女亚组在特征利用上表现出明显差异,揭示了性别特异性的病理检测机制。
研究团队系统比较了ShallowNet、EEGNet、Deep4Net和时序卷积网络(TCN-EEG)四种架构的性能。ShallowNet凭借其简洁性和竞争力表现被选为主要模型,在TUAB数据集上的生物性别检测达到了74.88%的平衡准确率,显著优于先前研究的74.00%。
这项研究的意义远超出了技术层面。它首次在大规模数据集上证实了EEG信号中性别特异性模式的可检测性,同时揭示了这些模式并不必然成为病理诊断的混淆因素。这一发现对正在兴起的神经AI基础模型(foundation models)开发具有重要启示:在追求模型规模的同时,必须充分考虑数据集的代表性和公平性。
研究结果挑战了长期以来关于大脑性别差异的某些假设。与强调大脑侧化(lateralization)性别差异的传统观点不同,本研究显示功能活动的性别差异可能更加复杂和情境依赖。更重要的是,它为大样本EEG分析在揭示神经机制方面的潜力提供了有力证据,为未来研究指明了方向。
随着神经AI模型向大规模、多模态方向发展,这项研究强调了对人口统计学变量(如生物性别)进行系统分析的必要性。只有确保训练数据的代表性和平衡性,才能开发出真正稳健、公平且具有临床意义的神经疾病诊断工具。未来研究可进一步探索训练好的神经网络在EEG分类中优先利用的连接模式,这有望揭示区分个体的大脑活动性别差异的神经生理机制,最终推动神经科学和临床实践向更加个性化、精准化的方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号