共形压缩器

《Pattern Recognition》:Conformal Compressors

【字体: 时间:2025年10月08日 来源:Pattern Recognition 7.6

编辑推荐:

  本文提出基于一致预测的数据压缩方法Conformal Compressors,通过非符合性得分定义数据重要性,采样生成小型摘要,实验表明其预测性能和稳定性优于随机采样和现有共核集方法。

  
Nery Riquelme-Granada|An Khuong Nguyen|Zhiyuan Luo
南安普顿大学,英国南安普顿,SO17 1BJ

摘要

随着更大规模输入数据集的可用,标准机器学习预测器的效果会变得更加显著。虽然这有助于提升预测能力,但往往也会带来较高的计算成本。一种可行的方法是使用较小且精心设计的表示来替代大型数据集,同时保留原始数据的关键属性。在本文中,我们通过核集(即数据的小型、可证明正确的摘要)与合规预测(一种用于校准机器学习预测的强大通用方法)的结合,重新探讨了这一方法。具体来说,我们在现有工作的基础上引入了合规压缩器,这是一种受核集启发的数据压缩方法。初步结果表明,这些压缩器能够有效捕捉数据中的有用信息,并且与均匀随机采样和最先进的核集构建方法相比,具有显著更好的稳定性和可靠性。

引言

现代机器学习系统越来越依赖于大量数据,以便在广泛的预测任务中取得成功。“学习器的成功”通常通过其误差界限来评估[1],这些误差界限与学习过程中使用的数据量密切相关。本质上,拥有更多信息可以提高有效泛化的能力。然而,处理大型数据集的算法复杂性可能导致计算资源和存储空间的消耗,使得在这些庞大数据集中发现模式变得相当具有挑战性。
一项始于[2]的研究探索了使用替代数据集(即核集[3])来加速合规预测[4]的实现:这是一种频率主义框架,用于统计校准标准机器学习算法(如逻辑回归、支持向量机、神经网络等)的预测结果。此类校准过程生成的预测结果是集合值,会受到严格的误差界限限制。[2]表明,有效的数据压缩方法不仅可以节省大量的训练时间,还能保留原始数据集的重要属性,这通过生成的合规预测器的效率得到了验证。[5]中也提出了类似的观点,涉及在支持向量机问题上使用小型核集对Venn-Abers预测器进行概率校准的情况。
在这项工作中,我们将进一步推进上述研究方向,将数据压缩和合规预测的概念结合起来,但有一个重要的创新点:我们提议反过来利用合规预测来识别数据的有意义表示,然后将其用于机器学习任务。也就是说,我们不是将合规预测作为事后过程来审查在压缩数据上训练的学习器的校准结果,而是将其作为计算数据压缩本身的工具。技术上,我们将合规预测中的非合规性得分概念与核集文献中的敏感性概念进行了类比,并提出了一种基于这些得分的重要性采样分布来进行数据选择。与[2]类似,我们假设了一个逻辑回归(LR)的场景。我们将这种降低数据复杂性的新方法称为合规压缩器(CC),在接下来的几页中,我们将介绍其动机并探讨其潜力。
我们工作的贡献可以总结如下:
  • 合规压缩器:受核集算法框架的启发,我们提出了利用合规预测生成的合规信息来定义数据集中数据点重要性的新方法。然后利用这一概念从数据集中非均匀采样代表性样本,并将它们收集到一个小型数据摘要中,其大小仅为原始数据集大小的例如1%
  • 实证结果:
    我们展示了CC在公共数据集上的初步实证结果。与数据压缩领域的标准做法一致,我们将我们的方法与均匀随机采样(URS)和最近的LR核集构建方法进行了比较。结果表明,与URS和核集相比,CC在预测性能上更优且更稳定。
  • 对[2]启动的研究的扩展:
    我们通过引入创新方法,在合规预测的背景下应用核集构建原则,扩展了Riquelme等人的基础工作。因此,我们继续推进这一研究方向,探索可靠机器学习[8]与数据压缩之间的相互作用。
  • 本文的结构如下:第2节讨论逻辑回归学习问题和合规预测。第3节介绍核集的预备知识并介绍我们的主要贡献:CC。第4节展示合规压缩器的实证结果和初步发现。第5节概述相关研究。最后,第6节总结我们的贡献并展望未来的研究方向。

    章节片段

    二元逻辑回归与合规预测

    在本节中,我们全面介绍了二元逻辑回归问题以及与合规预测(CP)相关的概念,涵盖了其演绎和归纳版本。

    核集与合规压缩

    在讨论了演绎和归纳CP的背景概念后,本节介绍了数据摘要的概念,将核集作为一种实现数据近似正确摘要的原理性方法。然后,受到核集方法的启发,我们提出了我们的贡献:合规压缩器(CC),该方法利用CP生成的非合规信息来构建信息丰富的数据摘要。

    实证评估

    在介绍了我们的方法后,本节展示了实验结果。合规压缩器将与均匀随机采样进行基准测试,后者是数据近似技术的最标准测试方法,参见[19],[27]和[5]。此外,我们还包含了Tolochinksy等人在[20]中提出的两种最新的逻辑回归核集构建方法:逻辑核集Sigmoid核集,这两种方法都使用了重要性采样。

    文献中的核集

    核集技术起源于计算几何领域,作为一种系统化的方法,用于近似形状拟合问题的最优解,例如最小包围球(MEB)[34],[35],[36],[37]和方向宽度(DW)[38],[39]。在机器学习领域,核集主要在无监督学习[15],[40],[22],[41],[42]的背景下被研究,用于设计快速近似和流处理算法,以解决计算上难以处理的问题,例如聚类。

    结论与未来工作

    在这项工作中,我们提出了合规压缩器,据我们所知,这是第一个有效利用合规信息来近似数据的方法。
    我们的结果表明,合规压缩器在多个公共数据集上的表现始终优于均匀随机采样(URS)和两种竞争性的核集构建方法,显示出更高的预测性能和更高的可靠性。值得注意的是,合规压缩器实现了

    CRediT作者贡献声明

    Nery Riquelme-Granada:撰写——审阅与编辑,撰写——原始草稿,项目管理,方法论,调查,形式分析,概念化。An Khuong Nguyen:撰写——审阅与编辑。Zhiyuan Luo:项目管理。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号