机器学习助力心血管疾病与听力损失关联研究:开启精准预测新篇

《Scientific Reports》:Machine learning analysis of cardiovascular risk factors and their associations with hearing loss

【字体: 时间:2025年03月23日 来源:Scientific Reports 3.8

编辑推荐:

  研究人员利用机器学习分析心血管风险因素与听力损失的关联,发现关键因素并构建高效模型,意义重大。

  在全球范围内,听力损失正逐渐成为一个严峻的健康问题。据统计,2019 年美国有 7288 万人存在不同程度的听力损失,占总人口的 22.2%;2024 年的流行病学数据显示,全球约 15 亿人,近 20% 的世界人口,正在遭受某种程度的听力损失,预计到 2050 年,全球约 6.984 亿人将患有中重度听力损失。听力损失不仅限制了人们的社交活动,还对学习、就业、心理健康以及生活质量产生了负面影响。因此,早期检测和预防听力损失迫在眉睫。
此前的研究发现,心血管疾病(CVD)等全身性疾病是听力损失的风险因素。例如,高血压、肥胖、糖尿病和吸烟等都与听力损失存在密切关联,且患有两种或更多 CVD 风险因素的人,听力损失的风险估计会增加 90%。然而,一旦听力损失因这些因素发生,往往是不可逆的。所以,识别可改变的风险因素以降低听力损失风险至关重要。

与此同时,机器学习(ML)技术在各个领域展现出巨大潜力,在听力学和听力科学领域也不例外。它能够整合多种相互关联的因素,检测临床特征与结果之间的复杂联系,进而建立高度预测性的模型。但到目前为止,还没有研究利用 ML 技术,基于主要听力损失风险因素和 CVD 风险因素来预测当前的听力结果。

为了解决这一问题,来自伊朗设拉子医科大学耳鼻咽喉科研究中心、英国伦敦政治经济学院、埃塞俄比亚亚的斯亚贝巴大学、美国麻省理工学院等机构的研究人员开展了相关研究。他们的研究成果发表在《Scientific Reports》上,为听力损失的预测和预防提供了新的方向。

在研究过程中,研究人员运用了多种关键技术方法。首先,他们对美国国家健康和营养检查调查(NHANES)2012 - 2018 年的数据进行了回顾性分析。该数据集包含了丰富的信息,通过复杂的多阶段概率抽样设计获得,具有全国代表性。研究人员从 28874 名参与者中筛选出 7996 名年龄≥20 岁、听力测试数据完整且无自我报告听力损失的参与者。其次,研究人员进行了数据预处理,将二进制特征转换为 0/1,处理缺失数据,并采用分层随机抽样将数据集分为训练集和测试集。然后,他们运用多种监督式 ML 算法,包括线性模型、基于树的集成模型以及多层前馈神经网络等,来预测连续的 PTA 值和分类听力损伤阈值。最后,使用 SHapley Additive exPlanations(SHAP)对模型进行解释,分析影响听力结果的关键因素。

研究结果主要体现在以下几个方面:

  1. 样本特征:研究分析了 7996 名参与者的听力阈值数据,参与者随机分为训练队列和测试队列,两者在人口统计学和基线特征方面匹配良好。平均年龄为 44.19±14.28 岁,男性占 50.02%,大多数人(73.78%)听力阈值在 16 dB 或更低。
  2. 识别听力状态的性能:研究人员使用扩展特征 ML 模型预测三个严重程度等级。在基于大于 25 dB HL 阈值分类听力损伤的任务中,LightGBM 模型表现最佳,训练集和测试集的准确率分别达到 80.1% 和 79.8%,AUC - ROC 和 AUPRC 也表现出色。在预测大于 16 dB HL 和大于 40 dB HL 阈值时,所有模型也取得了较高的准确率,LightGBM 同样表现突出。
  3. 预测听力阈值的性能:在预测听力阈值的回归模型评估中,MLNN 表现最优,其平均绝对误差(MAE)为 3.05 dB(95% CI:3.04 - 3.06),均方根误差(RMSE)为 4.49 dB(95% CI:4.48 - 4.50),R2为 0.69 。Gradient Boosting 在其他模型中表现较好,而线性回归表现较差。
  4. 特征重要性:通过 SHAP 值分析发现,在分类任务(HL 阈值超过 25 dB)和预测听力阈值任务中,年龄都是最重要的预测因素,其次是性别、收缩压、教育等因素。同时,糖尿病对听力结果也有重要影响。

在研究结论和讨论部分,研究人员开发的风险预测系统显示,所有模型在主要分类任务中准确率至少达到 75%,LightGBM 在预测准确性、AUCROC 和 AUPRC 方面表现最佳,MLNN 在 MAE、RMSE 和 R2指标上优于其他模型 。研究还确定了影响听力结果的主要相关因素,如年龄、性别、血压、腰围、运动、吸烟、中风、种族和糖尿病等。

该研究具有重要意义。一方面,其利用大样本量和多种数据驱动的 ML 算法,提高了诊断准确性,有助于识别高风险人群,为个性化治疗和预防措施提供依据。另一方面,早期检测有可改变风险因素个体的听觉功能障碍,对减轻听力损失负担至关重要,符合个性化医疗的趋势。不过,研究也存在一些局限性,如无法准确捕捉 CVD 合并症状态、数据集的横断面性质限制了因果关系的确定、数据可能存在回忆偏差以及缺乏外部验证等。未来的研究需要进一步克服这些问题,以更全面地了解心血管疾病风险因素与听力损失之间的关系,推动听力健康领域的发展。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号