Multivariate longitudinal clustering reveals neuropsychological factors as dementia predictors in an Alzheimer’s disease progression study:多变量纵向聚类揭示神经心理因素是阿尔茨海默病进展研究中痴呆的预测指标
编辑推荐:
在阿尔茨海默病(AD)研究领域,为解决早期检测困难及优化干预问题,研究人员开展多变量纵向聚类研究。他们利用 OASIS-3 数据集,发现神经心理症状(NPS)与认知功能相关,还识别出与轻度行为障碍(MBI)相符的个体。该研究为临床建模和患者管理提供重要依据。
阿尔茨海默病(Alzheimer’s disease,AD)作为一种常见的神经退行性疾病,严重威胁着老年人的健康和生活质量。据统计,全球 65 岁及以上人群中,AD 患者数量众多,预计到 2050 年,痴呆患者人数将大幅增加。目前,AD 的早期检测面临诸多挑战,由于其症状的隐匿性和复杂性,在疾病早期,往往难以准确判断。而且,现有的诊断方法大多依赖于昂贵的影像学检查或侵入性操作,不仅成本高,还会给患者带来一定的痛苦。此外,对于 AD 的发病机制尚未完全明确,这也使得开发有效的治疗方法受到限制。
为了应对这些问题,来自意大利国家研究委员会(Consiglio Nazionale delle Ricerche,CNR)、米兰比可卡大学(Università di Milano-Bicocca)等机构的研究人员开展了一项关于 AD 的研究。他们希望通过分析纵向数据,挖掘出与 AD 进展相关的关键因素,为早期诊断和干预提供有力支持。
研究人员采用了多变量纵向 k -means 聚类算法(multivariate longitudinal k -means),该算法基于传统的 k -means 聚类技术,专门针对多变量时间序列数据进行了优化,能够有效分析不同特征的联合轨迹。同时,研究还整合了特征选择策略,以确定对聚类结果影响较大的关键特征。研究数据来源于 Open Access Series of Imaging Studies-3(OASIS-3)数据库,该数据库包含了 1098 名参与者的磁共振成像(MRI)及相关临床数据,涵盖了认知正常的成年人和处于不同认知衰退阶段的个体。
在研究过程中,研究人员首先对 OASIS-3 数据集进行了预处理,筛选出至少有 5 次随访记录的患者,并通过一系列步骤进行特征选择,最终确定了 7 个与神经心理因素相关的特征,包括老年抑郁量表(Geriatric Depression Scale,GDS)、激越(agitation)、烦躁(dysphoria)、焦虑(anxiety)、抑制解除(disinhibition)、易怒(irritability)和冷漠(apathy)。
研究结果表明,通过聚类分析,当 k = 3 时,能够更好地区分健康受试者、认知轻度受损个体和认知衰退个体。具体来说,Cluster 1 主要包含认知功能稳定的健康个体;Cluster 2 中的个体认知功能也相对稳定,但存在一定程度的认知损伤;Cluster 3 中的个体则在随访过程中表现出明显的认知衰退。通过对不同聚类中个体的神经精神症状和认知表现进行统计分析发现,各聚类之间在性别、MMSE、CDR 和 CDR-SB 等指标上存在显著差异。
进一步分析发现,患有痴呆的个体在疾病的某些阶段甚至在疾病发作前就会出现神经精神症状。对于那些诊断不明确的个体,其神经精神症状的趋势虽然不太清晰,但也表现出一些与 MBI 相符的特征。这表明 MBI 可能是 AD 痴呆的早期迹象和预测指标,神经心理测量可以作为一种经济有效的、微创的方法来检测认知衰退。
在研究结论和讨论部分,研究人员指出,采用三个聚类的纵向聚类方法不仅能够区分健康受试者和痴呆患者,还能识别出具有痴呆进展风险因素的个体。这一结果为采用无监督技术和纵向研究来识别痴呆早期预测指标提供了有益的思路。不过,该研究基于单一数据集,其结果的普遍性还需要进一步验证。未来,研究人员计划将该算法应用于更多的电子健康记录(EHR)多访视数据集,以评估其计算性能。
总的来说,这项研究为 AD 的早期诊断和干预提供了新的视角和方法,强调了神经心理因素在 AD 进展中的重要作用,为临床医生和研究人员进一步了解 AD 的发病机制和制定个性化治疗方案提供了重要参考。论文发表在《BioData Mining》上,为该领域的研究做出了重要贡献。
研究人员用到的主要关键技术方法包括:多变量纵向 k -means 聚类算法,该算法用于分析多变量时间序列数据的联合轨迹;Soft-DTW 距离计算方法,用于衡量时间序列之间的相似性;数据预处理及特征选择,从 OASIS-3 数据集筛选符合条件的样本并挑选出关键特征;采用 Silhouette score、Davies-Bouldin index(DBI)和 Calinski-Harabasz index(CHI)等聚类评估指标确定最佳聚类数;运用χ2检验、ANOVA 或 Kruskal-Wallis 检验以及 Tukey’s post-hoc 检验等统计方法分析不同聚类间的差异。