编辑推荐:
帕金森病(PD)早期诊断困难,传统方法耗时费钱。研究人员开展利用人工智能(AI)和机器学习(ML)技术,通过语音分析诊断早期 PD 的研究。结果显示模型准确率达 91.11%,该研究为早期 PD 检测提供非侵入性、低成本且快速的工具。
帕金森病(Parkinson’s disease,PD)是一种常见的中枢神经系统退行性疾病,会导致患者出现不自主的身体运动,如震颤、僵硬等,还可能引发行为和精神方面的变化。目前,PD 还无法治愈,只能通过药物缓解症状。然而,传统的诊断方法依赖临床评估和成像技术,不仅具有侵入性、成本高,还需要专业的医学知识。在这样的背景下,人工智能和机器学习技术的发展为 PD 的诊断带来了新的希望。
来自渥太华医院研究所和渥太华大学工程设计与教学创新学院的研究人员开展了一项研究,旨在开发一种基于语音生物标志物的人工智能驱动、非侵入性且免费的 PD 筛查工具,以便在症状出现前实现早期检测。该研究成果发表在《Scientific Reports》上。
研究人员主要运用了以下关键技术方法:首先,使用公开数据集的 81 个语音录音作为样本,这些样本包括 41 个健康对照(HC)和 40 个 PD 患者的录音。然后,通过数据预处理去除背景噪声、基于性别均衡分贝并保留音频前后的静音间隔。利用 Parselmouth 库提取关键声学特征,如梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)、抖动(jitter)、闪烁(shimmer)和谐噪比(Harmonic-to-Noise Ratio,HNR)等。构建了一种结合卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Networks,RNN)、多内核学习(Multiple Kernel Learning,MKL)和多层感知器(Multilayer Perceptron,MLP)的混合模型,并采用五折交叉验证(five-fold CV)评估模型性能 。
研究结果如下:
- 模型性能评估指标:通过五折交叉验证评估模型性能,发现 MLP + CNN + RNN + MKL 模型表现最佳。其平均准确率为 91.11%,这意味着约 91.11% 的预测是正确的;精度为 89.84%,表明模型在预测帕金森病时,阳性预测的正确率较高,假阳性率低;召回率为 92.50%,说明模型识别阳性病例的能力较强;F1 分数为 91.13%,平衡了精度和召回率;曲线下面积(Area Under Curve,AUC)为 0.9125,表明该模型在区分帕金森病患者和健康个体方面具有较强的判别能力。
- 评分系统结果:研究人员开发了一种基于概率的评分系统,对 81 个音频样本进行评估。结果显示,健康对照的录音评分大多在 0 - 0.30 之间,而 PD 患者的录音评分大多在 0.70 - 0.90 之间。如文件 AH_678A_2E7AFA48 - 34C1 - 4DAD - A73C - 95F7ABF6B138.wav 被分类为 HC,但评分 0.39,有发展为 PD 的中等可能性;文件 AH_545812846 - 0C14B32A - 6C50 - 4B62 - BC890A815C2DEEFA.wav 和 AH_545880204 - EE87D3E2 - 0D4C - 4EAA - ACD7 - C3F177AFF62F.wav 为 PD 患者录音,但评分分别为 0.69 和 0.62,进一步分析发现这些评分对应的音频文件的声学特征与早期 PD 患者相似,验证了评分系统的有效性。
在讨论部分,研究人员分析了模型误分类的原因。对于 HC 音频文件,平均有 4.2 个被误分类为 PD,可能是因为 HC 和早期 PD 患者的声学特征存在重叠,以及特征提取软件可能未充分捕捉语音模式的变化。对于 PD 音频文件,有 3 个被误分类为 HC,这可能是由于患者症状严重程度的差异,以及模型在判断临界病例时过于保守。
此外,研究人员使用 SHapley Additive exPlanations(SHAP)来解释模型的预测。SHAP 分析表明,MFCCs 中的 mfcc_3、mfcc_11 和 mfcc_5 等特征对模型决策影响显著,较高的 mfcc_3 值与 PD 诊断的可能性增加相关。抖动和闪烁测量也为模型提供了关于 PD 相关语音细微变化的深入信息,高值的局部闪烁与 PD 诊断的可能性增加有关。mean HNR 虽影响相对较小,但较低的 HNR 值也与 PD 相关,支持了 PD 患者声音更嘈杂的临床观察。
这项研究具有重要意义。首先,其证明了基于语音分析的人工智能模型在早期 PD 诊断中的有效性,为临床诊断提供了一种新的非侵入性、低成本且快速的方法,尤其适用于远程或远程医疗环境。其次,SHAP 分析为模型决策提供了可解释性,有助于医生理解模型如何基于声学特征进行诊断,从而提高对人工智能诊断工具的信任度。再者,评分系统的开发能够量化疾病进展,有助于医生评估治疗效果并调整治疗方案,实现精准医疗。然而,该研究也存在一些局限性,如在实际临床应用中患者录制高质量语音可能存在困难,模型处理纵向数据的能力有待验证,数据集较小等。未来研究可以通过增加数据集规模、探索合成数据生成技术、结合多模态数据等方式进一步改进模型。