异常值:好、坏与丑陋的面目

《Proceedings of the ACM on Management of Data》:Outliers: The Good, the Bad and the Ugly

【字体: 时间:2025年11月07日 来源:Proceedings of the ACM on Management of Data

编辑推荐:

  异常值对机器学习分类器的影响及修复方法研究。针对关系数据集中不同类型的异常值(好/坏及丑陋型)对分类器准确率的影响,提出基于统计函数与异常检测器融合的OMRs规则体系,构建学习算法与修复机制。实验表明该方法可平均提升7.2%准确率,最高达34.8%。

  

摘要

本文研究了关系数据集D中的异常值对机器学习分类器M准确性的影响,特别是当使用D来训练和评估M时。异常值是指在统计上偏离大多数数据分布的数据点。我们区分了好的异常值(即新颖的数据)和坏的异常值(即由错误引入的数据),并将那些对特征具有显著影响的“丑陋”异常值与其他坏异常值区分开来。研究发现,只有“丑陋”的异常值会对M产生负面影响,而好的异常值(或其他类型的坏异常值)则分别会产生正面影响或可忽略的影响。为了减轻这种负面影响,我们提出了一类规则,称为OMRs(Outlier Mitigation Rules),通过嵌入机器学习异常值检测器和统计函数作为谓词来识别这些“丑陋”的异常值。我们开发了算法来(a)从真实数据中学习OMRs,以及(b)利用学到的OMRs来捕获并修复这些异常值,而不是直接删除相关数据元组。通过实际数据验证,我们发现OMRs平均能使各种分类器的准确性提高7.2%,最高可达34.8%。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号