编辑推荐:
在医学图像研究中,数据集质量至关重要。研究人员针对 DermaMNIST、HAM10000 和 Fitzpatrick17k 数据集开展研究,分析数据质量问题并提出修正方案。结果发现诸多问题,修正后提升了数据集可靠性,为后续研究奠定基础。
在医学领域,皮肤疾病是全球范围内常见的健康问题,影响着近三分之一的全球人口,仅在美国,2016 年皮肤病的医疗保健成本就高达 750 亿美元。随着深度学习在皮肤病诊断任务中的快速发展,相关模型的诊断准确率不断提高,逐渐接近人类专家水平。然而,训练这些模型依赖大量且多样的数据集,与自然计算机视觉数据集不同,医学图像数据集由于图像采集和标注成本高、涉及法律伦理和隐私问题等,规模相对较小,扩展成本高昂。而且,现有皮肤癌图像数据集存在严重的数据质量问题,如数据泄漏、图像误标记、重复数据等,这些问题会导致模型训练效率低下、准确性欠佳、泛化能力差等,严重影响模型的可靠性和解释性,使得基于这些数据集训练的模型在实际应用中面临诸多挑战。为了解决这些问题,来自西蒙弗雷泽大学(Simon Fraser University)和印度理工学院德里分校(Indian Institute of Technology Delhi)的研究人员展开了深入研究,其成果发表在《Scientific Data》上。
研究人员使用了多种关键技术方法。在数据处理方面,利用 fastdup 和 cleanvision 等工具计算图像嵌入相似性分数,以此检测数据集中的重复图像;对于 Fitzpatrick17k 数据集,通过重新命名图像文件来更好地理解图像信息,并借助 tkinter 库创建图形用户界面(GUI)进行人工审核。在模型训练和评估环节,采用官方的 MedMNIST 和 Fitzpatrick17k 训练评估代码,选择 ResNet-18 和 ResNet-50 等模型架构,使用交叉熵损失函数和 Adam 优化器进行训练,并在多个实验设置下进行超参数搜索。
研究结果如下:
- DermaMNIST 数据集:该数据集存在严重的数据泄漏问题,同一病变的图像在训练、验证和测试分区中大量重叠。例如,10,015 张图像实际上仅来自 7,470 个独特病变,1,956 个病变 ID(约 26.18%)包含 2 张或更多图像,且有 886 张图像(641 个病变)在训练 - 测试分区重叠。通过将同一病变 ID 的图像移至训练分区,研究人员修正了数据泄漏问题,得到 DermaMNIST-C 数据集。同时,发现 HAM10000 元数据存在错误,有 18 对 “遗漏重复” 图像对未在元数据中体现。此外,DermaMNIST 在 224×224 分辨率图像的处理上存在问题,原方法导致图像模糊、细节丢失,研究人员直接从高分辨率下采样到 224×224 的方法则能保留更多细节。基于此,研究人员还提出了更具挑战性的扩展数据集 DermaMNIST-E,该数据集以 DermaMNIST 为训练集,ISIC 2018 验证和测试分区为验证和测试集,并去除了一张特殊图像。
- Fitzpatrick17k 数据集:该数据集同样存在诸多问题。数据方面,存在大量重复图像,通过 fastdup 和 cleanvision 检测发现众多相似图像对及图像簇,且重复原因多样,包括不同的裁剪 / 缩放级别、光照设置、图像分辨率和几何变换等;标签方面,诊断和 Fitzpatrick 皮肤色调(FST)标签存在误标记情况,例如在相似性阈值为 0.90 和 0.95 时,分别有 2498 和 93 对图像诊断不同,4030 和 803 对图像 FST 标签不同;此外,数据集中还包含错误图像,如非皮肤病成像模态、植物和动物的图像等,并且数据分区不规范,缺乏严格的测试分区。针对这些问题,研究人员提出了清理后的 Fitzpatrick17k-C 数据集,去除重复图像簇和错误图像,并提供了标准化的训练、验证和测试分区,同时进行了基准测试。
研究结论和讨论部分表明,这些研究成果意义重大。对于 DermaMNIST 数据集,修正后的数据泄漏问题和改进的图像缩放方法,使得数据集更加可靠,能够更准确地评估模型性能;DermaMNIST-E 数据集的提出,则为皮肤病变诊断模型提供了更具挑战性的评估环境,有助于筛选出性能更优的模型。对于 Fitzpatrick17k 数据集,Fitzpatrick17k-C 数据集的创建和标准化分区,解决了原数据集存在的多种问题,使得研究人员能够更公平地比较不同模型的性能,推动皮肤疾病诊断模型的发展。总体而言,该研究提高了人们对大型数据集潜在数据质量问题的认识,为后续的皮肤病研究和模型训练提供了更可靠的数据基础,对提升医学研究的可靠性具有重要意义,也为其他数据集的质量评估和改进提供了参考范例,有望促使研究人员在未来更加重视数据质量,开展更严格的数据质量评估工作。