编辑推荐:
在乳腺癌筛查中,乳腺超声图像(BUS)的计算机辅助检测(CAD)系统较少,高质量数据集稀缺。研究人员开发 BUS-UCLM 数据集用于分析超声图像。结果显示该数据集可训练模型,虽有局限,但结合其他数据集能提升模型性能,为乳腺癌研究提供重要资源。
在乳腺癌的防治之路上,早期精准诊断至关重要。目前,在放射学的乳腺癌筛查中,用于乳腺 X 线摄影的计算机辅助检测(CAD)系统相对较多,这些系统借助传统机器学习和深度学习等技术,发挥着重要作用。然而,针对乳腺超声图像(BUS)的 CAD 系统却极为稀少。尽管三星超声机上的 S-Detect?系统能对乳腺病变进行分析和分类,提升了超声检测乳腺癌的准确性,但要开发出强大的用于乳腺超声分析的机器学习模型,仍面临诸多挑战,其中一个关键难题就是缺乏大量且标注良好的数据集。因为高质量的数据集对于训练和验证机器学习模型至关重要,它需要涵盖各种不同类型和阶段的乳腺病变实例,才能确保模型在真实场景中有效应用。
为了解决这一难题,来自西班牙卡斯蒂利亚 - 拉曼恰大学(University of Castilla-La Mancha)和雷阿尔城综合大学医院(Hospital General Universitario de Ciudad Real)的研究人员展开了深入研究。他们开发了 BUS-UCLM 数据集,旨在为乳腺超声图像分析的机器学习算法提供全面的资源支持。这一研究成果发表在《Scientific Data》上,具有重要的意义。
研究人员在开展此项研究时,运用了以下几个主要关键技术方法:
- 图像采集与匿名化:2022 - 2023 年从雷阿尔城综合大学医院收集超声图像,使用西门子 Acuson S2000 超声系统和 18L6 HD 探头,采用标准波束形成方法。图像最初以 DICOM 格式存储,后转换为 PNG 文件,并通过多种方式对患者信息进行匿名化处理。
- 图像标注:由专家放射科医生对病变进行活检确认,利用 CVAT 平台手动标注生成精确的分割掩模,同时纳入正常组织扫描样本。
下面来看具体的研究结果:
- 数据集构成:该数据集包含 38 名患者的 38 次乳腺超声扫描,共 683 张图像。这些图像按结果可分为正常(419 张)、良性(174 张)和恶性(90 张)三类。其文件夹结构包含主文件夹下的两个子文件夹和一个 CSV 文件,分别存放超声图像、分割掩模和图像信息。
- 技术验证:通过两位专家放射科医生标注,且标注结果达成共识,病变恶性程度经活检确认,保证了数据集的准确性。与其他现有公共数据集相比,BUS-UCLM 数据集包含无病变和多病变标注样本,且图像质量更优。使用 UNet 模型训练验证,结果表明该数据集虽规模较小,但足以训练出性能合理的模型,结合其他数据集可提升模型可靠性和预测性能。
- 偏差识别:研究发现该数据集存在潜在偏差,如人口统计学偏差(数据仅来自西班牙某一医院,不能代表更广泛人群)、临床偏差(主要基于专家标注,缺乏普通医生诊断数据)、选择偏差(样本量小,部分病变类型或临床情况代表性不足),部分图像的标注和图像类型也可能影响模型结果。不过,研究人员提供了详细的元数据 CSV 文件,方便用户根据需求筛选图像。
- 与其他数据集结合:将 BUS-UCLM 数据集与其他数据集整合,训练五种分割模型(UNet、AttUnet、SK-UNet、DeepLabv3 和 Mask R-CNN),经 5 折交叉验证,Mask R-CNN 在各项指标上表现最佳。结果表明该数据集未显著影响模型性能,结合多个数据集有助于创建更综合的模型,提高模型的稳健性和适用性。
在研究结论和讨论部分,虽然 BUS-UCLM 数据集存在一些局限性,如样本量相对较小、存在潜在偏差等,但它为训练和评估机器学习模型提供了坚实基础。其丰富的数据质量和严谨的分割流程,使得研究结果具有相关性和意义。未来进一步扩大数据集规模,有望进一步提升模型性能。而且,与其他数据集结合使用的方式,为增强诊断算法的泛化能力提供了有效途径,有助于推动乳腺癌超声图像分析领域的发展,为乳腺癌的早期精准诊断和防治提供更有力的支持。