基于注意力损失函数和 SMOTE 技术缓解糖尿病预测中类别不平衡的研究

【字体: 时间:2025年05月30日 来源:Healthcare Analytics CS4.4

编辑推荐:

  为解决 Pima 印第安糖尿病数据集(PIDD)存在的类别不平衡、特征非线性相关等问题,研究人员提出基于注意力二元交叉熵损失函数(ABCE)的轻量级神经网络 DB-Lite 模型,结合合成少数过采样技术(SMOTE)。结果显示模型准确率达 99.7%,为糖尿病自动诊断系统提供新方向。

  
糖尿病作为一种常见的慢性代谢性疾病,其早期诊断对预防并发症至关重要。然而,用于糖尿病预测的 Pima 印第安糖尿病数据集(PIDD)存在诸多挑战,如样本量小、类别不平衡(糖尿病阴性 500 例 vs 阳性 268 例)、特征间非线性相关性强,且部分特征(如 BMI、胰岛素)存在不合理零值(被视为缺失值),导致传统模型性能不稳定,准确率波动在 67%-77% 之间。因此,开发更有效的模型来克服这些问题具有重要的临床应用价值。

为应对上述挑战,研究人员开展了针对糖尿病预测的算法优化研究。研究团队提出了一种名为 DB-Lite 的轻量级人工神经网络模型,并结合多种创新方法提升预测性能。该研究成果发表在《Healthcare Analytics》。

研究采用的关键技术方法包括:

  1. 合成少数过采样技术(SMOTE):对 minority class 进行数据增强,缓解类别不平衡;
  2. 注意力二元交叉熵损失函数(ABCE):通过计算类内特征方差分配注意力权重,减轻统计不平衡影响;
  3. Swish 激活函数:替代传统 ReLU,增强模型处理非线性特征的能力;
  4. 自适应学习率(ALR):前 50% epoch 使用固定学习率(0.008),后 50% epoch 线性衰减,加速收敛;
  5. 数据预处理:将 BMI 等特征的零值替换为中位数,保留全部 8 个特征避免信息丢失。

4.1 消融研究


通过对比不同激活函数、过采样方法及损失函数的组合发现:

  • 仅使用 ReLU 且无过采样时,模型准确率仅 74.7±5.6%;
  • 引入 SMOTE 后,准确率提升至 87.7±3.9%,表明 SMOTE 有效缓解类别不平衡;
  • Swish 激活函数较 ReLU 进一步提升性能,准确率达 94.7±2.9%,体现其处理非线性关系的优势;
  • 结合 ABCE 损失函数和全部 8 个特征后,模型达到最佳性能:准确率 99.7±0.4%、精确率 99.4±0.8%、召回率 99.8±0.5%、F1 分数 99.6±0.6%。

4.2 与现有方法对比


与支持向量机(SVM)、随机森林、深度卷积神经网络(DCNN)等传统方法相比,DB-Lite 模型在各项指标上显著领先。例如,现有方法最高准确率为 99.13%(基于 K-means 聚类和自编码器),而本研究模型通过 ABCE 和 Swish 的结合,将准确率提升至 99.7%,且在 10 折交叉验证中平均准确率达 98.8%,标准差仅 0.38%,显示出更强的稳定性和泛化能力。

4.3 模型有效性验证


  • 统计假设检验:通过韦尔奇 t 检验(Welch t-testing)证实,ABCE 损失函数和 Swish 激活函数对模型性能提升具有统计学显著性(p<0.02);
  • 10 折交叉验证:在 10 个不同数据集划分中,模型准确率在 96.1%-100% 之间,平均 98.8%,验证了其鲁棒性。

结论与讨论


本研究提出的 DB-Lite 框架通过 SMOTE 解决类别不平衡、ABCE 缓解统计不平衡、Swish 处理非线性特征,并结合自适应学习率优化训练过程,成功突破了 PIDD 数据集的预测瓶颈。模型在准确率、精确率、召回率等关键指标上均达到当前最佳水平,为糖尿病的早期自动诊断提供了一种高效、稳定的解决方案。该研究不仅验证了轻量级神经网络在医疗数据中的潜力,还为处理类似不平衡数据集提供了新的方法论,有望推动人工智能在慢性病预测领域的临床应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号