异常值:好、坏与丑陋的面目
《Proceedings of the ACM on Management of Data》:Outliers: The Good, the Bad and the Ugly
【字体:
大
中
小
】
时间:2025年11月07日
来源:Proceedings of the ACM on Management of Data
编辑推荐:
异常值对机器学习分类器的影响及修复方法研究。针对关系数据集中不同类型的异常值(好/坏及丑陋型)对分类器准确率的影响,提出基于统计函数与异常检测器融合的OMRs规则体系,构建学习算法与修复机制。实验表明该方法可平均提升7.2%准确率,最高达34.8%。
摘要
本文研究了关系数据集D中的异常值对机器学习分类器M准确性的影响,特别是当使用D来训练和评估M时。异常值是指在统计上偏离大多数数据分布的数据点。我们区分了好的异常值(即新颖的数据)和坏的异常值(即由错误引入的数据),并将那些对特征具有显著影响的“丑陋”异常值与其他坏异常值区分开来。研究发现,只有“丑陋”的异常值会对M产生负面影响,而好的异常值(或其他类型的坏异常值)则分别会产生正面影响或可忽略的影响。为了减轻这种负面影响,我们提出了一类规则,称为OMRs(Outlier Mitigation Rules),通过嵌入机器学习异常值检测器和统计函数作为谓词来识别这些“丑陋”的异常值。我们开发了算法来(a)从真实数据中学习OMRs,以及(b)利用学到的OMRs来捕获并修复这些异常值,而不是直接删除相关数据元组。通过实际数据验证,我们发现OMRs平均能使各种分类器的准确性提高7.2%,最高可达34.8%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号