基于多变量纵向临床数据挖掘阿尔茨海默病风险因素的新方法

【字体: 时间:2025年02月19日 来源:BMC Bioinformatics 2.9

编辑推荐:

  本研究针对阿尔茨海默病(AD)风险因素识别难题,提出一种基于时间模式挖掘的框架C-TPM,精准预测AD发病,为早期干预提供有力工具,成果发表于《BMC Bioinformatics》

  随着全球老龄化加剧,阿尔茨海默病(Alzheimer's disease,AD)的发病率不断攀升,给社会和家庭带来沉重负担。AD是一种复杂的神经退行性疾病,其发病机制尚未完全明确,且缺乏有效的早期诊断和干预手段。目前临床数据多为多变量、纵向且异质性强的时间序列数据,包含大量不同时间间隔测量的变量,这使得传统机器学习方法难以有效应用。为了突破这一瓶颈,悉尼新南威尔士大学(UNSW Sydney)的研究团队开发了一种名为临床时间模式挖掘(Clinical Temporal Pattern Mining,C-TPM)的高效框架,专门针对真实世界临床数据的时间模式挖掘,旨在识别与AD发病相关的风险因素。
C-TPM框架结合了时间抽象、改进版的高效模式增长算法TPMiner、相对风险和比值比等概念,通过多进程技术提升计算效率,并提供了一套完整的离散化和数据解释的截断值。该框架被应用于悉尼记忆与老龄化研究(Sydney Memory and Ageing Study,MAS)和澳大利亚老年双胞胎研究(Older Australian Twin Study,OATS)的AD数据,发现的模式在生存分析模型中预测AD的Concordance指数高达0.87,且包含临床相关变量,可视化模块也清晰展示了发现的模式,便于临床医生解读。
研究团队首先对临床数据进行时间抽象,将异质性数据转化为高级视图以便比较。随后,基于改进的TPMiner算法挖掘高相对风险模式,并将识别的模式转换为二进制矩阵作为机器学习模型的输入。最终,通过可视化模块展示最具预测性的模式。该框架不仅适用于临床数据,还可推广至其他医学领域甚至非临床数据。
C-TPM框架的创新之处在于其独特结合了现有和扩展技术,包括时间抽象、改进的TPMiner算法、与临床数据相关的兴趣度量以及用于生存分析的机器学习技术。它通过降低最小支持度阈值来识别罕见但与疾病相关的模式,同时利用相对风险和比值比作为兴趣度量,减少无意义模式的产生。此外,C-TPM还引入了相对风险阈值以缩小搜索空间,并通过多进程技术提高计算效率。
在实验中,C-TPM在MAS和OATS数据集上表现出色,发现的模式数量可通过相对风险和最小支持度阈值有效控制。其执行时间显著优于以往方法,即使在发现超过60个模式时,平均执行时间也低于25秒。此外,基于C-TPM框架的机器学习生存分析模型在预测AD发病方面表现出色,其中XGBTree和Ridge模型在MAS数据集上表现最佳,而OATS数据集上XGBTree模型表现最为突出。
研究结果表明,C-TPM框架能够有效处理多变量纵向临床数据,识别出与AD发病相关的罕见模式,并通过可视化工具为临床医生提供易于理解的模式解读。这一成果不仅为AD的早期检测和干预提供了新的工具,也为其他复杂疾病的临床数据挖掘提供了可借鉴的方法。未来,研究团队计划进一步优化缺失值处理方法,并将该框架应用于更多疾病领域,以助力疾病的早期诊断和治疗。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号