护栏:从噪声数据中自动合成完整性约束

《Proceedings of the ACM on Management of Data》:Guardrail: Automated Integrity Constraint Synthesis From Noisy Data

【字体: 时间:2025年11月07日 来源:Proceedings of the ACM on Management of Data

编辑推荐:

  数据质量问题长期困扰数据库领域,错误数据影响决策可信度。传统方法依赖功能依赖(FDs)约束检测但效果有限。本文提出基于领域特定语言(DSL)的约束程序,结合数据统计特性设计高效合成算法,在12个真实数据集上验证错误检测能力,并应用于48个ML-集成SQL查询,使平均错误率降低87%。开源框架Guardrail及数据集已开放[2]。

  

摘要

数据质量问题一直是数据库领域长期存在的挑战。错误的数据可能导致查询结果不准确,进而影响基于数据做出的决策的可靠性。为了解决这个问题,一种常见的做法是发现数据的完整性约束并对其进行强制执行,以确保数据的质量。例如,可以利用函数依赖性(Functional Dependencies, FDs)所蕴含的约束来检测数据中的违规情况。然而,现有的方法无法有效地从噪声数据中检测出这些违规情况。
在本文中,我们提出了一种新型的完整性约束形式,这种约束以领域特定语言(Domain-Specific Language, DSL)的形式实现,可用于检测和纠正数据中的错误。在DSL的基础上,我们提出了一种高效的合成算法,该算法利用数据的统计结构特性来生成程序的框架,显著减少了搜索空间并加快了合成过程。为了证明我们方法的有效性,我们在12个真实世界的数据集上对其进行了错误检测评估。然后,我们展示了所合成的完整性约束可以用于改进48个SQL查询,使错误率平均降低了87%。我们的开源工具包(包括Guardrail框架和数据集)可供社区使用[2]。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号