
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:基于人工智能的软件缺陷预测中类别不平衡处理的系统综述
【字体: 大 中 小 】 时间:2025年08月13日 来源:Results in Engineering 7.9
编辑推荐:
这篇综述系统回顾了2000-2025年间123项研究,聚焦AI技术在软件缺陷预测(SDP)中处理类别不平衡(CI)的方法。研究发现76%的缺陷数据集存在严重类别不平衡,数据采样(如SMOTE)和集成学习(如AdaBoost)是最主流解决方案,其中过采样占比52.85%。深度学习和可解释AI(XAI)正成为新兴研究方向,AUC-ROC被证实为最稳健的评估指标。
状态与挑战
软件缺陷预测(SDP)作为软件工程核心课题,长期受类别不平衡(Class Imbalance, CI)问题困扰。研究表明,NASA、PROMISE等主流数据集中76%的模块分布呈现高度偏态(缺陷模块占比<30%),导致传统机器学习模型如SVM、决策树(DT)的预测性能显著下降。这种数据偏斜现象促使研究者探索各类AI解决方案。
技术演进图谱
早期阶段(2000-2009年)以成本敏感学习为主,Khoshgoftaar团队首次提出基于决策树的误分类惩罚机制。2010-2014年迎来转折,Gao等人开创性地将过采样(SMOTE)与集成学习(AdaBoost)结合,在NASA数据集上实现F1值提升23%。2015年后进入混合方法爆发期,堆叠集成(Stacked Ensemble)和深度表征学习(如Bi-LSTM)逐渐成为新范式。值得注意的是,2023-2025年间大型语言模型(LLM)开始应用于工业级缺陷预测,为解决小样本问题提供新思路。
关键方法学突破
数据层面解决方案中,边界敏感过采样(Borderline-SMOTE)通过聚焦决策边界附近样本,将少数类识别准确率提高15-18%。算法层面,代价敏感随机森林(Cost-sensitive RF)通过调整类别权重,在Eclipse项目上实现AUC 0.82的突破。新兴的深度学习方法如去噪自编码器(DAE)通过特征重构,有效缓解了高维数据下的过拟合问题。特别值得关注的是,混合方法"SMOTE+深度森林"在跨项目缺陷预测(CPDP)中展现出显著优势,较基线模型提升Recall达31%。
评估体系革新
研究指出,传统准确率(Accuracy)在类不平衡场景下会产生严重误导。基于123项研究的元分析显示,AUC-ROC因其对类别分布不敏感的特性,成为78%研究的首选指标。Fβ度量(β=2时侧重召回率)和Matthews相关系数(MCC)也逐渐被采纳为辅助指标。实验证实,在Lucene数据集上,采用AUC评估的深度网络(AUC 0.91)显著优于传统神经网络(AUC 0.83)。
工业落地挑战
当前主要障碍包括:1)计算开销问题,SMOTE衍生方法使训练时间平均增加3-5倍;2)可解释性困境,合成样本影响模型决策透明度。应对策略呈现多元化趋势:轻量级方法如Cluster-Based欠采样可降低60%内存消耗;而SHAP(SHapley Additive Explanations)等XAI工具能有效追踪合成样本的影响路径。业界案例显示,将代价敏感学习嵌入持续集成(CI/CD)管道,可使缺陷检测效率提升40%。
未来演进方向
元学习(Meta-learning)框架AutoBalance通过自动选择最优不平衡处理策略,在PROMISE数据集上减少人工调参时间80%。跨项目迁移学习中,TCA(Transfer Component Analysis)方法通过特征空间对齐,使模型在数据稀缺的新项目中保持85%以上的F1值。值得期待的是,基于Transformer的预训练模型正被用于缺陷预测,其少样本学习能力有望突破传统数据限制。
生物通微信公众号
知名企业招聘