异常值：好、坏与丑陋的面目

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

异常值：好、坏与丑陋的面目

《Proceedings of the ACM on Management of Data》：Outliers: The Good, the Bad and the Ugly

【字体：大中小】 时间：2025年11月07日 来源：Proceedings of the ACM on Management of Data

编辑推荐：

　　异常值对机器学习分类器的影响及修复方法研究。针对关系数据集中不同类型的异常值（好/坏及丑陋型）对分类器准确率的影响，提出基于统计函数与异常检测器融合的OMRs规则体系，构建学习算法与修复机制。实验表明该方法可平均提升7.2%准确率，最高达34.8%。

摘要

本文研究了关系数据集D中的异常值对机器学习分类器M准确性的影响，特别是当使用D来训练和评估M时。异常值是指在统计上偏离大多数数据分布的数据点。我们区分了好的异常值（即新颖的数据）和坏的异常值（即由错误引入的数据），并将那些对特征具有显著影响的“丑陋”异常值与其他坏异常值区分开来。研究发现，只有“丑陋”的异常值会对M产生负面影响，而好的异常值（或其他类型的坏异常值）则分别会产生正面影响或可忽略的影响。为了减轻这种负面影响，我们提出了一类规则，称为OMRs（Outlier Mitigation Rules），通过嵌入机器学习异常值检测器和统计函数作为谓词来识别这些“丑陋”的异常值。我们开发了算法来（a）从真实数据中学习OMRs，以及（b）利用学到的OMRs来捕获并修复这些异常值，而不是直接删除相关数据元组。通过实际数据验证，我们发现OMRs平均能使各种分类器的准确性提高7.2%，最高可达34.8%。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号