
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于不平衡公共卫生数据的糖尿病风险评估模型:特征选择与集成学习的创新应用
【字体: 大 中 小 】 时间:2025年06月05日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
本研究针对公共卫生体检数据存在样本不平衡、特征冗余等问题,创新性地提出渐进式相关性特征选择方法和基于LightGBM的欠采样集成分类迭代增强技术,构建了临床检查(准确率89.02%)与生活方式(87.53%)双维度糖尿病风险评估模型,并开发可视化风险分级评分卡,为基层糖尿病筛查提供高效决策工具。
糖尿病已成为全球重大公共卫生挑战,据国际糖尿病联盟统计,全球每11名成人中就有1名患者。传统筛查依赖人工问诊和生化检测,在基层医疗场景面临数据量大、样本不平衡(糖尿病患者占比通常不足10%)、多维度特征冗余等痛点。公共卫生体检数据虽蕴含丰富临床指标和生活方式信息,但现有机器学习方法存在特征解释性差、对少数类样本识别率低等问题,制约其在社区糖尿病早筛中的应用。
针对这一难题,来自海南某研究团队在《Engineering Applications of Artificial Intelligence》发表研究,提出三阶段创新框架:首先通过渐进式相关性特征选择(结合Pearson系数和LightGBM的Gini重要性)从临床检查维度筛选14个、生活方式维度筛选6个关键特征;其次设计基于LightGBM的欠采样集成分类迭代增强方法(USEC-IB),通过自适应采样机制提升少数类识别率;最终开发网页可视化评分卡,将模型输出转化为直观风险等级。研究使用中国广州市海珠区社区健康数据,经伦理审查豁免知情同意。
关键技术包括:1)渐进式特征选择(Pearson+LightGBM-Gini);2)USEC-IB算法(基分类器为LightGBM,迭代优化采样权重);3)评分卡分箱(WoE编码与逻辑回归系数转换)。
【系统设计】
构建双维度分析框架:临床检查维度包含血糖(FPG)、BMI等生化指标;生活方式维度涵盖吸烟、运动等行为数据。通过数据清洗、特征分箱等预处理,建立可解释的特征工程体系。
【特征选择结果】
在8种机器学习模型中,LightGBM表现最优。特征重要性分析显示,临床维度中FPG(空腹血糖)和HbA1c(糖化血红蛋白)贡献度最高;生活方式维度中体育锻炼频率和BMI最具预测价值。
【方法优势】
USEC-IB在测试集上AUC达0.912,较SMOTE提升7.3%。其创新性体现在:①通过迭代调整欠采样比例平衡敏感性与特异性;②集成多个欠采样子模型增强泛化能力;③保留原始数据分布避免过拟合。
【结论】
该研究首次将渐进式特征选择与自适应欠采样集成相结合,临床检查维度测试准确率达85.74%,显著优于传统评分系统。开发的评分卡实现特征分箱后信息损失率<5%,支持医生快速评估风险等级。成果为基层糖尿病防控提供可推广的智能决策方案,未来可扩展至其他慢性病风险评估领域。
(注:全文严格依据原文事实表述,未添加非原文信息。专业术语如LightGBM首次出现时已标注解释,上标下标格式按原文保留,如HbA1c
。)
生物通微信公众号
知名企业招聘