编辑推荐:
研究人员利用 NHANES 数据和机器学习方法开发模型预测骨质疏松风险,LightGBM 模型表现最佳,助力疾病防治。
### 骨质疏松防治困境与机器学习的破局之钥
骨质疏松,作为一种常见于老年人群的系统性骨骼疾病,如同隐匿的 “健康杀手”。它以骨量减少、骨微结构恶化悄无声息地削弱着骨骼强度,使患者极易遭受骨折之苦。据统计,2010 - 2020 年间,50 岁及以上骨质疏松患者数量从 1020 万激增至 1230 万,预计到 2030 年将达 1360 万,这无疑给社会带来了沉重负担。髋部骨折等骨质疏松性骨折不仅严重限制患者行动能力、引发慢性疼痛,还致使生活质量大幅下降,约 20 - 30% 的患者甚至在骨折后一年内离世。
目前,骨密度(BMD)检测虽为骨质疏松诊断的 “金标准”,却有着敏感性低、成本高的缺陷,患者往往在出现症状后才进行检测,难以实现早期筛查。临床评估工具如 FRAX、SCORE 等虽有一定实用价值,但准确性欠佳。在此背景下,机器学习(ML)技术凭借其强大的数据分析能力,为骨质疏松风险预测带来了新希望。尽管已有研究探索利用机器学习诊断骨质疏松,但早期尝试存在过拟合、样本代表性不足、变量选择随意等问题,限制了其广泛应用。
为突破这些困境,暨南大学附属第一医院等机构的研究人员开展了一项旨在开发并验证利用机器学习识别骨质疏松风险的研究。他们的成果发表于《BMC Research Notes》,为骨质疏松防治提供了新的方向与有力工具。
研究关键技术方法
研究人员从美国国家健康与营养检查调查(NHANES)获取 2013 - 2014 年及 2017 - 2020 年的数据,涵盖实验室、人口统计学和问卷调查数据。数据预处理时,去除非数值变量、处理缺失值,并通过 max - min 缩放标准化数据。针对数据不均衡问题,采用 Borderline SMOTE 算法平衡数据集。运用最小冗余最大相关性(mRMR)和 SelectKBest 方法进行特征选择,构建了 LightGBM、随机森林(RF)、神经网络、XGBoost 四种机器学习模型,并借助 Shapley 值可加性解释(SHAP)算法分析特征重要性,通过十折交叉验证评估模型性能。
研究结果
- Borderline SMOTE 算法成效显著:使用该算法平衡数据集后,模型在训练集上的 AUC 从 83% 提升至 97.0%,Brier 评分为 0.0828,表明模型预测值与实际结果贴合良好,有效解决了数据不均衡问题。
- 关键特征筛选确定:经 mRMR 和 SelectKBest 方法筛选出 18 个关键特征,包括身高、近期服用处方药情况、甲状腺病史、年龄等。这些特征相互补充,能有效描绘骨质疏松情况,增强预测性能。
- LightGBM 模型性能卓越:对比其他机器学习算法,LightGBM 模型在训练集和测试集上均表现最佳,训练集上 F1评分达 0.914、MCC 为 0.831、AUC 为 0.970;测试集上 F1评分 0.912、MCC 为 0.826、AUC 为 0.972,展现出良好的泛化性和稳健性。
- 模型对比优势凸显:与其他深度学习预测模型相比,该研究构建的模型使用的特征更易获取,无需 CT 数据,准确性和敏感性更高。
研究结论与意义
此次研究成功开发出基于 NHANES 数据的机器学习模型用于诊断骨质疏松,其性能优于传统临床评估工具和部分机器学习模型。模型能个性化评估骨质疏松风险,解释各特征对结果的贡献,且所需特征易获取。这一成果为骨质疏松早期检测和个性化预防策略提供了有力支持,有助于临床医生更精准地评估患者风险,制定针对性防治方案。不过,研究也存在一定局限性,如骨质疏松诊断依赖自我报告问卷可能存在回忆偏倚,NHANES 数据库数据不够全面等。后续研究可通过整合更多类型数据,如遗传信息、影像学研究和详细饮食史等,构建更完善的预测模型,推动骨质疏松防治领域的发展。<该研究为骨质疏松防治提供了新的思路和方法,机器学习模型在骨质疏松风险预测中的应用展现出巨大潜力。它有望成为临床实践中辅助诊断和预防骨质疏松的重要工具,帮助人们更好地管理骨骼健康,减少骨质疏松相关疾病的发生和发展,在未来医学领域有着广阔的应用前景。>
涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒
10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�
娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功
鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�
涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�