认知障碍的语音指纹:基于人工智能的语音分析在阿尔茨海默病早期检测中的突破
《npj Dementia》:Voiceprints of cognitive impairment: analyzing digital voice for early detection of Alzheimer’s and related dementias
【字体:
大
中
小
】
时间:2025年11月15日
来源:npj Dementia
编辑推荐:
本研究针对阿尔茨海默病(AD)早期诊断率低至9%的临床困境,创新性地利用人工智能技术分析数字语音记录。研究人员通过对LEADS队列中120名患者和68名认知正常对照者的Craft故事回忆任务语音样本进行分析,开发了特征工程机器学习和端到端深度学习两种分类方法。结果显示,端到端深度学习模型在检测轻度认知障碍(MCI)时AUC达到0.988,在区分早发性AD(EOAD)与非AD认知障碍(EOnonAD)时AUC达到0.904,显著优于传统神经心理学评分。该研究为AD的早期无创筛查提供了新的技术路径。
在阿尔茨海默病(AD)诊疗领域,早期诊断始终是临床实践中的重大挑战。尤其令人担忧的是,处于疾病最早临床阶段的患者被确诊的机会可能低至9%,这与其从新型疾病修饰疗法中获益最大的关键时期形成了尖锐矛盾。诊断延迟的背后隐藏着多重障碍:初级保健医生对痴呆知识的缺乏、标准化筛查工具灵敏度不足、年度健康访视缺乏结构化认知评估,以及部分临床医生进行认知测试时的抵触情绪。这些挑战在年轻患者中尤为突出,早期症状常被误认为是疲劳、睡眠不足或精神疾病所致。
面对这一严峻现状,人工智能(AI)技术为突破诊断瓶颈带来了新的希望。正如人工智能已在肿瘤学和心血管疾病诊断领域引发革命性变革,其在神经退行性疾病领域的应用潜力正待发掘。语言作为反映认知状态的重要行为领域,其产生涉及记忆、执行功能和持续注意力等多个认知维度,自然成为早期检测AD的理想突破口。
在这项发表于《npj Dementia》的研究中,由马萨诸塞塞州总医院和哈佛医学院的Neguine Rezaii和Bradford C. Dickerson领衔的研究团队,与LEADS联盟合作,开展了一项开创性研究。他们假设基于AI的数字语音分析能够从简短语音记录中检测认知障碍,并区分其潜在病因。研究聚焦于纵向早发性AD研究(LEADS)中的三个组别:认知未受损(CU)对照组、早发性AD(EOAD)患者和早发性非AD认知障碍(EOnonAD)患者,所有参与者均完成了NACC统一数据集(UDS)神经心理学电池测试中的Craft故事回忆任务。
研究采用了两种分析方法:特征工程机器学习从语音和语言中提取数字标志物训练XGBoost分类器;端到端深度学习则直接将原始转录文本输入大型语言模型(LLM)RoBERTa进行分类。为了确保结果的可靠性,研究采用分层留出验证方法,将数据分为75%训练集和25%测试集,并通过嵌套交叉验证框架进行超参数优化。
主要关键技术方法包括:从LEADS多中心队列获取数字语音样本,通过Craft故事延迟回忆任务收集语音数据;使用Google Cloud Speech-to-Text进行自动转录和手动校正;提取声学特征(基频统计、振幅扰动等)、语音速率特征(发音速率、语速、停顿持续时间)和词汇句法特征(词频、句长等);开发语言信息指数(LII)衡量语义相似度;应用XGBoost机器学习分类器和RoBERTa大型语言模型进行分类;采用SHAP和LIME可解释性AI方法分析特征重要性。
Classifying patients with mild cognitive impairment from cognitively unimpaired individuals
研究首先验证了数字语音分析在检测轻度认知障碍方面的效能。特征工程方法中,基于语音和语言特征的XGBoost模型在测试集上达到了0.945的AUC,显著优于基于MoCA评分(0.920)和Craft故事逐字评分(0.863)的模型。SHAP分析揭示了最具预测力的特征:语言信息指数(LII)是区分认知受损患者与CU个体的最强预测因子,CU个体表现出更高的LII值,表明认知障碍患者的故事回忆语言与原始故事的语义相似性较低。
端到端深度学习方法展现了更卓越的性能,微调后的RoBERTa-base模型在测试集上达到了0.988的AUC。LIME分析确定了驱动分类决策的关键词汇:认知未受损个体更频繁地使用表示特定人物(如"Ricky"、"neighbor"、"Maria")、时间特异性(如"Monday"、"afternoon"、"3:30")和特定动词(如"retrieve"、"barking")的词汇。
Classifying patients with EOAD from those with EOnonAD
在区分EOAD与EOnonAD的更具挑战性任务中,特征工程方法达到了0.804的测试集AUC,而端到端深度学习模型表现更为突出,达到了0.904的AUC。SHAP分析确定EOAD的关键指标包括:更高的词频(使用更常见的词语)、更低的比例名词率(如"Ricky")、更高的形容词修饰词和更低的时间修饰词。
LIME分析进一步揭示了词汇使用模式的差异:EOnonAD患者倾向于使用更具体的词汇,如"dogs"和"barking",以及专有名词如"Ricky";而EOAD患者则更多使用故事中未出现的词汇,如"remember",通常用于"我不记得"之类的句子中。
研究结论表明,两种分析方法共同指向一个核心因素:信息量减少。尽管认知障碍患者试图通过产生更多句子来补偿较短的句子,但他们的语言仍然模糊,依赖更一般的术语、增加代词使用和减少时间标记,导致沟通的特定性和信息量降低。语言信息指数(LII)的降低是早期损伤的标志性特征,这一发现与研究者近期跨语言的AD研究一致。
该研究的创新之处在于将AI语音分析应用于最轻度的临床阶段(CDR≤0.5),并首次基于生物标志物(淀粉样蛋白PET)解决鉴别诊断的挑战。与之前主要在MCI/轻度痴呆混合群体中进行的研究相比,本研究在更早疾病阶段达到了更高准确率(90%)。可解释性分析不仅增强了模型透明度,更为AD相关语言变化的认知机制提供了可操作的见解。
展望未来,将这种方法扩展到更大规模、更广年龄范围和社会经济背景的队列,以及英语以外的语言和自由言语任务,将有助于测试这些语言标志物的普适性。整合数字语音和AI分析到常规可获取的行为样本中,如临床预约期间的语音甚至访前智能手机筛查,有望简化从怀疑到及时诊断的路径,为改变生命的干预措施创造条件。这项研究为实现AD的自动化、可扩展筛查奠定了坚实基础,特别是在初级保健环境中标记需要进一步评估的个体方面展现出巨大潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号