
-
生物通官微
陪你抓住生命科技
跳动的脉搏
软件缺陷预测中类重叠与类不平衡交互作用的量化分析与优化策略研究
【字体: 大 中 小 】 时间:2025年07月29日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对软件缺陷预测(SDP)中类不平衡(Class Imbalance)和类重叠(Class Overlap)的协同干扰问题,研究人员通过230个数据集的大规模案例研究,揭示了缺陷实例75%集中于重叠区域的核心现象,发现类重叠对SVM等模型的负面影响显著高于类不平衡,并提出重叠消除与重平衡联合策略可提升AUC等指标但需权衡召回率(Recall),为优化缺陷预测模型提供了数据分布-指标-可解释性多维决策框架。
在软件质量保障领域,软件缺陷预测(SDP)如同"代码体检仪",能提前标记潜在缺陷模块。但现实数据中,非缺陷样本(多数类)往往远超缺陷样本(少数类),形成类不平衡(Imbalance Ratio, IR>1);更棘手的是,两类样本在特征空间里"纠缠不清"(类重叠,Class Overlap),导致分类器在重叠区域频频"误诊"。现有研究多孤立处理这两个问题,却忽视了它们的协同效应——就像只治疗发烧却忽略感染源,治标不治本。
江苏大学的研究团队在《Expert Systems with Applications》发表的研究中,首次通过230个异构数据集的系统实验,揭示了类不平衡与类重叠的"共谋机制"。他们采用K近邻(KNN)算法量化重叠比率(Overlap Ratio, OR),结合SMOTE过采样和实例移除等处理技术,构建了包含LR、SVM等7种分类器的评估体系,并引入AUC、Recall等11项指标多维度评估模型表现。
RQ1交互机制
通过OR值分布分析发现,缺陷样本中位重叠率高达75%,显著高于非缺陷样本。这些"高危样本"往往被大量非缺陷邻居包围,形成"孤岛效应",导致类不平衡与重叠产生负向协同——IR越高,缺陷样本越易被多数类淹没。
RQ2重叠影响
SVM对重叠最为敏感,OR每增加10%,其F1值平均下降8.2%。有趣的是,Recall指标几乎不受重叠影响,但Precision会随OR升高而断崖式下跌,说明模型倾向于将重叠样本误判为缺陷(假阳性激增)。
RQ3双因素作用
在平衡数据集(IR≈1)中,类孤立不平衡对AUC影响<3%,但会使Recall波动达35%;而高OR值(>30%)会使所有分类器的Brier分数(校准度指标)恶化20%以上,证实重叠才是性能的"主要破坏者"。
RQ4处理策略
"移除+SMOTE"组合策略表现最优,平均提升AUC 15%,但会牺牲12%的Recall。单纯使用SMOTE虽能提高Recall 18%,却会扭曲特征分布,导致Top3特征排名稳定性下降40%,严重影响模型可解释性。
RQ5特征扰动
SMOTE处理使特征重要性排名的中位变异系数达0.47,远高于移除策略(0.21)。SVM的特征排名抗干扰性最强,验证了其核函数对分布变化的鲁棒性。
这项研究首次量化了类不平衡与重叠的"1+1>2"负面效应,建立了"数据清洗-算法选择-指标权衡"的决策链:当OR>25%时应优先清除重叠实例;若追求可解释性,建议采用移除法而非SMOTE;医疗等需高Recall的场景可容忍一定重叠,而金融风控等需高精度领域必须严格清理重叠。这些发现为软件质量工程提供了数据治理的新范式,其提出的"动态平衡三角"(性能-稳定性-可解释性)框架也可迁移至其他不平衡分类场景。
生物通微信公众号
知名企业招聘