基于DMN4DQ+框架的数据修复优化:提升数据可用性的约束编程方法

【字体: 时间:2025年08月02日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对数据质量与可用性之间的关键平衡问题,álvaro Valencia-Parra团队提出DMN4DQ+扩展框架,通过约束优化技术(COP)实现数据修复行动的最优组合选择。该研究创新性地将决策模型与符号(DMN)标准与成本效益分析结合,在真实数据集验证中实现33.7%不可用数据的修复优化,为组织数据治理提供了可审计的决策支持工具。

  

在数字化转型浪潮中,数据已成为组织战略决策的核心资产。然而美国公司每年因低质量数据造成的损失高达3.1万亿美元,暴露出数据质量(DQ)与数据可用性之间的深刻矛盾。现有研究表明,高质量数据并不必然等同于高可用性——当修复成本超过收益时,即使符合质量标准的数据也可能被弃用。这种矛盾在云计算服务等实时决策场景中尤为突出,例如亚马逊AWS实例目录中常出现规格参数不完整或不一致导致实例无法销售的情况。

针对这一挑战,西班牙塞维利亚大学(Universidad de Sevilla)Dpto. Lenguajes y Sistemas Informáticos的álvaro Valencia-Parra团队在《Expert Systems with Applications》发表创新研究。他们扩展了先前开发的DMN4DQ框架,提出DMN4DQ+方法论,通过约束编程(Constraint Programming, CP)技术实现数据修复的优化决策。该研究突破性地将业务规则建模、数据质量评估与成本优化进行系统整合,在包含百万条记录的AWS实例数据集验证中,成功识别出66种可用性特征谱(Usability Profile),并为47种"不可用"状态提供修复方案。

研究采用三项关键技术:1)基于决策模型与符号(DMN)标准构建多层次业务规则体系,包括数据值规则(BR.DV)、质量测量规则(BR.DQM)和可用性决策规则(BR.DUD);2)建立"可用性特征谱"量化模型,通过决策表回溯机制精确追溯数据质量问题根源;3)应用约束优化问题(COP)建模,将21种修复行动的组合选择转化为最小化成本的数学问题。特别创新的是提出"修复行动簇"概念,将具有相同特征谱的记录批量处理,显著提升优化效率。

关键研究发现包括:

  1. 在数据质量测量层面,通过BR.DV.01-05规则识别出时钟速度(ClockSpeed)、内存(Memory)等属性的完整性(SAST)和一致性(MAST)问题;

  2. 可用性评估显示66种特征谱中47种被标记为"不可用",涉及35万条记录,主要问题包括空值(34.6万条)、格式错误(222条)和功能依赖违反(1,492条);

  3. 成本优化分析表明,单一"数据充实"行动可修复33%数据集,而"正则替换+数据标准化"组合能以最低成本(成本值2)修复948条记录;

  4. 约束编程求解平均耗时39秒/特征谱,验证了方法在百万级数据集的可行性。

这项研究的突破性在于首次实现数据修复决策的透明化与量化。不同于黑箱机器学习方法,DMN4DQ+通过明确的业务规则和约束条件生成可审计的修复方案。实际应用中,组织可根据风险偏好调整"目标可用性"阈值,在BR.DUD层平衡质量要求与实施成本。案例显示该方法能使AWS实例目录的可用率从66.3%提升至83.5%,仅通过实施成本≤5的修复行动。

讨论部分强调三个核心贡献:1)建立数据质量、可用性与成本的量化关联模型;2)开发基于DMN的标准化评估框架,支持跨组织比较;3)验证约束优化在数据治理中的实用价值。局限性在于当前仅支持单记录级(SAST/MAST)问题修复,未来将扩展至多记录关联(MAMT)场景。这项研究为数据驱动型组织提供了方法论工具,特别适用于云计算、金融风控等需要实时质量评估的领域,其开源实现dmn4spark更推动技术在产业界的落地应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号