《npj Digital Medicine》:Synthetic bone marrow images augment real samples in developing acute myeloid leukemia microscopy classification models
编辑推荐:
为解决医学图像数据稀缺和隐私问题,研究人员开展合成骨髓涂片(BMS)图像研究,证明其可训练高精度分类模型。
在医学领域,“大数据” 概念备受关注,可用于训练和验证计算机视觉模型的大型图像数据库却存在诸多问题。像用于训练计算机视觉模型的 ImageNet 数据库拥有超 1400 万张图像,而医学图像数据库样本量通常仅在几百例,就被视为 “大数据” 。由于疾病的罕见性以及数据隐私和法规的限制,医学领域很难获取大量样本数据,血液学领域更是缺乏足够的数字化和公开图像。这不仅影响了计算机视觉模型在医学中的训练和验证,还使得基于图像的分类器训练变得困难,在癌症诊断中,数据不足可能导致错误诊断,危及患者生命。
为了解决这些问题,德国德累斯顿工业大学(TUD Dresden University of Technology)的研究人员开展了一项关于合成骨髓涂片(Bone Marrow Smear,BMS)图像的研究,相关成果发表在《npj Digital Medicine》上。
研究人员主要运用了以下关键技术方法:
- 样本采集与处理:收集了 1251 例成人急性髓系白血病(Acute Myeloid Leukemia,AML)患者、51 例成人急性早幼粒细胞白血病(Acute Promyelocytic Leukemia,APL)患者的骨髓涂片,以及 236 名成人骨髓捐赠者的样本作为对照。样本均来自之前的多中心临床试验,所有参与者都签署了知情同意书。
- 图像获取:对骨髓涂片进行手动染色,利用尼康显微镜及配套设备获取高分辨率图像数据,每个患者仅捕获一个感兴趣区域(Region of Interest,ROI)。
- 生成对抗网络(Generative Adversarial Networks,GANs):采用 StyleGAN2 - Ada 模型生成合成骨髓图像,该模型通过自适应判别器增强技术,有效处理小数据集问题。
- 视觉图灵测试:邀请八位经验丰富的血液学家参与视觉图灵测试,评估合成图像与真实图像的相似度。
- 卷积神经网络(Convolutional Neural Networks,CNNs):训练基于 CNN 的分类器,使用不同比例的真实和合成数据进行迭代训练和测试,评估模型性能。
研究结果如下:
- GANs 生成高质量骨髓图像:StyleGAN2 - Ada 网络在处理 4000 张训练图像后,能够生成高质量的骨髓图像。通过欧氏距离相似性分数和结构相似性指数(SSIM)评估,合成图像与真实图像具有足够的相似性,且具有独特性,并非复制真实图像。在视觉图灵测试中,八位血液学家识别合成图像的平均准确率为 63.26%,这表明合成图像质量较高,难以与真实图像区分。
- 合成图像可用于分类器训练:研究人员利用不同的 CNN 架构,在真实数据上进一步训练分类器,并逐步用合成图像替代真实图像。结果显示,在所有三个分类任务(AML 与捐赠者、APL 与捐赠者、AML 与 APL)中,随着合成图像比例的增加,分类器的准确率和受试者工作特征曲线下面积(AUROC)保持稳定,即使使用完全合成的训练集,AUROC 值仍高于 0.95。此外,在添加合成样本到训练集后,涉及 APL 的分类任务中,模型性能得到了进一步提升。
研究结论和讨论部分指出,生成对抗网络(GANs)能够生成高质量的 BMS 图像,这些图像可用于训练高精度的显微镜图像分类器。合成图像在训练分类器时,可有效替代真实图像,即使真实数据比例较低或使用完全合成的训练集,也能保证模型的性能。这一研究成果有助于克服医学数据稀缺和隐私问题,为医学领域的诊断模型开发提供了新的思路和方法。同时,合成图像可在机构间共享,促进诊断模型的协作开发,并作为基准数据集,推动算法在临床实践中的验证和应用。不过,研究也存在一些局限性,如生成模型可能受到样本量和数据多样性的限制,合成样本可能无法完全代表真实患者群体,计算资源的限制也可能影响技术的广泛应用 。但总体而言,该研究为未来医学图像分析和诊断模型的发展奠定了重要基础,有望在临床实践中发挥重要作用。<
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》