NADA-SynShapes:面向概率深度学习模型基准测试的合成几何形状数据集
《IEEE Data Descriptions》:Descriptor: Not-A-DAtabase of Synthetic Shapes Benchmarking Dataset (NADA-SynShapes)
【字体:
大
中
小
】
时间:2025年11月13日
来源:IEEE Data Descriptions
编辑推荐:
本文推荐一项针对概率深度学习模型基准测试难题的研究。为解决现有数据集在控制群体变异性和潜在变量分布特性简化方面的不足,研究人员开发了NADA-SynShapes合成数据集。该数据集包含150万张128×128像素的几何形状图像,通过非初等多变量参数分布设计,系统支持不确定性量化(UQ)、特征解耦和分布外(OOD)检测三大关键领域的模型评估。数据集配套开源Python生成器,支持自定义修改,为概率机器学习方法提供了标准化基准测试平台。
在当前人工智能技术快速发展的浪潮中,深度学习模型已广泛应用于自动驾驶、医疗诊断等高风险领域。然而,这些模型的可靠性高度依赖于其不确定性量化能力——即模型能否准确评估预测结果的可信度。尽管基于贝叶斯推理的概率深度学习模型被视为实现可靠人工智能的关键技术,但学术界长期缺乏系统化、标准化的基准测试数据集。现有公开数据集(如ImageNet、MNIST)虽被广泛使用,却因对潜在变量分布控制不足或过度简化,难以满足概率模型评估的严格要求。这一瓶颈严重阻碍了不确定性感知技术的创新与比较。
为解决这一难题,来自意大利国家研究委员会信息科学与技术研究所的Giulio Del Corso、Claudia Caudai等研究人员在《IEEE Data Descriptions》上发表了名为“NADA-SynShapes”的合成形状基准测试数据集。该研究通过精心设计的几何形状生成系统,构建了包含150万张图像的大规模数据集,专门用于挑战和评估不确定性感知方法。
研究人员开发的开源Python合成生成器是本研究的技术核心。该工具采用高斯Copula形式和Sklar定理构建复杂多变量分布,支持蒙特卡洛、拉丁超立方和Sobol低差异序列等多种采样策略。生成器可精确控制形状颜色(十六进制码)、顶点数、半径(图像尺寸的0%-50%)、旋转(0°-360°)、位置坐标及形变度等参数,并引入高斯模糊、加性/乘性噪声等不确定性来源。数据集生成采用多线程并行化技术,在AMD Ryzen 7处理器上每小时可处理30万张图像。每个数据集均配套参数数据框、分布质量验证脚本(test_empirical_distribution)和样本可视化工具(test_function_show),确保生成结果的可复现性。
研究团队通过定义图像生成参数(图1)和多元分布特性,构建了三个针对性数据集仓库。数据质量通过比较经验分布与理论分布的验证流程确保,其中相关性分析图示(图2)直观展示了变量间的复杂关联模式。
该仓库包含30万张黑白图像,重点考察模型对复杂潜在空间的表征能力。数据集分为三个层级:第一级采用均匀分布的基本参数;第二级引入截断正态分布增加复杂性;第三级进一步添加位置相关性(ρ=0.5)和半径-旋转相关性(ρ=0.3)。如表1所示,这种渐进式设计有效测试了变分自编码器(VAE)等架构在非独立潜在变量下的解耦性能。
针对模型可靠性评估需求,该仓库包含70万张图像,其中训练集(10万张)以蓝色形状为主(90%),中心位置集中在图像左上区域。六个测试集(各10万张)通过逐步改变颜色比例、位置偏移(从左上到右下)和尺寸缩减(图5),系统模拟分布偏移程度。这种设计使研究人员能够量化模型在渐进式分布变化下的性能衰减规律。
50万张图像专门用于区分认知不确定性(可减少)和偶然不确定性(不可减少)。包含五个子集:洁净数据集、白噪声扰动(εA,N)、形状形变(εE,M)、标签噪声(20%三角形-正方形误标)及组合不确定性(图6)。通过控制噪声类型和强度,该数据集为贝叶斯神经网络(BNN)等模型的鲁棒性评估提供了标准化环境。
数据集采用分层存储结构(图3),图像以PNG格式按形状-颜色分类存储,配套参数数据框(CSV格式)和分布属性矩阵。开源生成器支持通过修改超参数快速重构数据集,避免了大规模文件传输。
本研究通过系统化的数据集设计,为概率深度学习模型提供了首个专注于不确定性量化基准测试的标准化平台。NADA-SynShapes不仅填补了现有数据集在潜在变量分布控制方面的空白,其开源生成器更允许研究人员根据特定科学问题自定义数据特性。尽管数据集基于简化几何形状,但其在多变量分布控制和不确定性建模方面的创新,为开发更可靠的AI系统奠定了重要基础。未来集成生成式AI工具增强纹理真实性后,该平台有望在保持变量控制精度的同时,进一步逼近自然图像的复杂性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号