编辑推荐:
帕金森病(PD)患者认知障碍问题突出,近半会在确诊 10 年内发展为痴呆(PDD) 。研究人员利用机器学习和多模态数据,探究 PDD 预测性及风险因素。结果发现遗传易感性和共病影响大,高血压、2 型糖尿病与 PDD 有关。该研究为预防 PDD 提供方向。
帕金森病(Parkinson’s disease,PD)是一种常见的神经退行性疾病,近年来其发病率不断攀升,给患者、家属以及医疗系统都带来了沉重的负担。PD 患者除了会出现运动症状,如运动迟缓(bradykinesia)、静止性震颤(tremor at rest)和肌强直(rigidity)外,认知障碍问题也十分突出。大约 25% 的 PD 患者会出现轻度认知障碍,45% 的患者在确诊后的 10 年内会发展为帕金森病痴呆(Parkinson’s disease dementia,PDD)。PDD 不仅会增加医疗支出,还会严重降低患者的生活质量,甚至标志着疾病进入终末期。然而,目前对于为何部分 PD 患者会更早出现认知障碍,以及如何预测这种疾病进展,科学界仍知之甚少。此前的研究虽然发现了一些与 PD 认知障碍相关的遗传风险变异,但这些研究多基于特定队列,数据缺乏代表性,相关模型在临床实践中的应用也存在困难。因此,迫切需要开展新的研究,利用更常规收集的健康数据,探索影响 PDD 的因素,为预防和干预提供依据。
为了解决这些问题,来自德国弗劳恩霍夫算法与科学计算研究所(Fraunhofer Institute for Algorithms and Scientific Computing,SCAI)等多个研究机构的研究人员展开了深入研究 。他们的研究成果发表在《npj Parkinson's Disease》上。该研究利用英国生物银行(UK Biobank,UKB)的大规模数据,结合帕金森进展标记倡议(Parkinson’s Progression Markers Initiative,PPMI)队列数据进行验证,旨在预测 PD 患者的痴呆风险,并探究可改变的风险因素,为预防策略提供参考。这一研究对于深入了解 PDD 的发病机制、制定有效的预防措施具有重要意义,有望为 PD 患者及其家庭带来新的希望。
研究人员主要运用了以下关键技术方法:
- 机器学习模型构建:构建了惩罚逻辑回归、随机森林(Random Forests)和 XGBoost 三种模型,通过五重嵌套交叉验证预测 PDD,评估模型性能。
- 特征分析:利用可解释人工智能(Explainable AI,XAI)技术中的 Shapley 加性解释(Shapley Additive Explanation,SHAP)分析,确定影响模型预测的重要特征,并计算不同数据模态的累积影响。
- 关系分析:通过贝叶斯网络(Bayesian networks,BN)结构学习,分析各变量间的条件统计依赖关系。
- 因果推断:运用孟德尔随机化(Mendelian randomization,MR)分析,确定高血压、2 型糖尿病等共病与 PDD 之间的潜在因果关系。
研究结果
- 患者和对照组的人口统计学特征:在 UKB 数据中,PD 患者以男性居多(61.3%),平均年龄 62.7 岁,PDD 组男性比例更高(69.8%),平均年龄 64.1 岁 。PPMI 数据中,PD 患者男性比例与 UKB 相似(60.4%),平均年龄 61.8 岁,PDD 组男性比例略低于 UKB(61.5%),平均年龄 67.1 岁。
- PDD 的可预测性:评估三种模型预测 PDD 的能力,随机森林和逻辑回归模型的平均 AUC 为 0.62,XGBoost 为 0.61 。消融研究表明,人口统计学、共病和遗传因素对模型贡献最大。使用 PPMI 数据集重复分析,随机森林模型在 PPMI 上的交叉验证预测性能更高,平均 AUC 为 0.65±0.02。
- SHAP 分析:以随机森林模型为例,SHAP 分析显示多基因风险评分 PGS4281 是主要预测因子,随后是 SNP rs769449、年龄等 。遗传因素对模型预测的影响最大(49.31%),其次是人口统计学因素(24.32%)和共病因素(15.74%)。在 PPMI 数据集上的分析结果类似。
- 预测因子的相互作用:通过 BN 结构学习发现,各数据模态内及不同模态间存在多种关联,如糖尿病、肥胖与高血压、高胆固醇血症相关,年龄影响焦虑、抑郁,性别与多种疾病和行为因素有关,还发现了一些基因位点与非遗传变量的联系1。
- 孟德尔随机化确定高血压对 PDD 的因果影响:MR 分析显示,高血压会增加 PDD 风险,2 型糖尿病也可能有影响 。MR-Egger 敏感性分析和 MR-PRESSO 分析进一步验证了相关结果,确认了高血压与 PDD 之间的潜在因果关系。
研究结论与讨论
该研究首次基于 UKB 人群研究探索 PDD 的可预测性及多种因素的相互作用。虽然模型预测性能目前不适合临床使用,但有助于患者分层,减少临床试验样本量 。研究表明遗传因素对 PDD 风险影响最大,共病因素如高血压、2 型糖尿病等与 PDD 存在潜在因果关系。这提示临床中对 PD 患者进行血压和血糖管理,可能是预防 PDD 的重要策略。
不过,研究也存在一定局限性。UKB 数据中 PD 和 PDD 的诊断依赖 ICD 编码,可能存在误差;使用基因分型阵列而非全基因组或全外显子测序,可能遗漏重要遗传因素;参与者多为英国白人、老年人且男性居多,样本代表性有限,UKB 中 PD 和 PDD 患者样本量相对总体疾病人群较小。尽管研究人员利用 PPMI 数据部分解决了这些问题,但仍需进一步研究。
总体而言,该研究创新性地结合多种分析方法,揭示了 PDD 发病机制中遗传、共病、环境和生活方式因素的复杂相互作用,为后续研究和预防策略制定提供了重要依据,对推动帕金森病领域的研究和临床实践发展具有重要意义。