皮肤癌智能诊断新纪元:基于纵向皮损图像与多模态元数据的大规模数据集构建与研究意义分析

《Scientific Data》:A longitudinal dataset of tile and corresponding dermoscopic images with metadata for identifying skin cancers

【字体: 时间:2025年10月01日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对当前皮肤癌人工智能诊断中存在的单图像评估局限、临床上下文信息缺失及纵向数据匮乏等关键问题,开展了基于三维全身成像与皮肤镜图像的纵向数据集构建工作。团队整合了480名参与者(包括普通人群与高风险人群)的250,162张皮损瓦片图像及9,389例对应皮肤镜图像,并提供了从人口统计学到皮损解剖位置等全面元数据。该数据集首次实现了同一皮损的多时间点(2–7次)追踪,为开发基于“丑小鸭”概念(ugly duckling)和动态变化的机器学习算法提供了关键资源,显著提升了模型在真实临床场景中的泛化能力与诊断准确性。

  
在皮肤癌已成为全球公共卫生挑战的背景下,黑色素瘤(melanoma)作为最具侵袭性的类型,其早期诊断直接关联患者生存率。传统机器学习算法虽在单张皮肤镜图像分类中表现优异,却忽略了临床医生决策的核心——整合患者病史、多皮损对比及纵向变化信息。现有公开数据集(如ISIC)存在显著局限性:皮肤镜图像多集中于可疑皮损,缺乏普通人群的良性病变数据;元数据(如肤色类型、种族)完整度不足;更关键的是,几乎无数据集提供同一皮损在不同时间点的序列图像。这些缺陷导致算法在真实场景中泛化能力差,且无法模拟临床动态监测流程。
为突破上述瓶颈,Nima Ghahari等研究人员在《Scientific Data》发表了题为“A longitudinal dataset of tile and corresponding dermoscopic images with metadata for identifying skin cancers”的论文,构建了迄今最全面的纵向皮肤图像数据集。该研究整合了两项前瞻性队列(“Mind Your Moles”和“Health Outcomes Program Study”),覆盖480名参与者(普通人群196人,黑色素瘤高风险人群284人),通过三维全身成像系统(VECTRA Whole Body 360)自动提取皮损瓦片图像,并对直径≥5 mm或临床关注的皮损采集皮肤镜图像。
关键技术方法包括:
  1. 1.
    利用VECTRA系统内置卷积神经网络(CNN)实现全自动皮损检测与瓦片图像提取;
  2. 2.
    对高风险人群进行长达2–3年、每6个月一次的纵向影像随访;
  3. 3.
    收集涵盖人口统计学、皮肤特征、日光暴露史等多维元数据;
  4. 4.
    通过组织病理学结果验证恶性皮损(共1,267例,含30例黑色素瘤)。
研究结果
1. 数据集规模与结构
数据集包含250,162张瓦片图像(平均每人521张)和9,389例皮损的皮肤镜图像(平均每人20张),其中7,038例皮损具有纵向图像(总计35,909张)。
表1进一步展示了图像数据在不同人群特征(如年龄、性别、肤色)及解剖部位的分布,凸显了数据的多样性与代表性。
2. 元数据完整性
研究突破了既往数据集元数据匮乏的局限,提供了包括菲茨帕特里克皮肤类型(Fitzpatrick skin type)、种族、痣计数、日光烧伤史等关键临床变量(表4)。例如,高风险人群中209人有皮肤癌切除史,其皮损图像数量达142,642张,为算法学习高风险特征提供了丰富样本。
3. 纵向追踪能力
通过为同一皮损分配唯一标识符并链接多次随访图像(表3),数据集支持开发基于时间序列变化的预警模型。例如,瓦片图像中标注了“下一次随访对应皮损ID”,可直接用于训练预测皮损恶性转化的时序算法。
4. 技术验证与质量控制
VECTRA系统的皮损检测CNN经前瞻性验证,对直径>2 mm痣的检测灵敏度达79%,特异度91%。所有切除皮损均通过组织病理学确认诊断,非切除皮损则通过随访无恶性变化视为良性,确保标签可靠性。
结论与意义
本研究填补了皮肤癌人工智能研究领域的关键空白:首次提供大规模、多时间点、多分辨率的皮损图像数据集,并配套结构化元数据。其核心价值在于:
  1. 1.
    推动上下文感知算法发展:支持开发基于“丑小鸭”概念(即良性痣在个体内形态一致、恶性皮损突出)的比较诊断模型;
  2. 2.
    增强算法泛化性:元数据使研究者可评估模型在不同人群(如不同肤色、年龄)中的表现,减少算法偏见;
  3. 3.
    赋能纵向研究:为监测皮损动态变化(如尺寸、颜色演变)提供基准数据,助力早期恶性转化识别;
  4. 4.
    促进临床转化:数据集模拟真实临床工作流(全身检查+重点皮损放大随访),提升算法在实践中的可用性。
尽管该数据集在种族多样性(以欧洲裔为主)和恶性病例数量上存在局限,但其开源特性(数据地址:https://doi.org/10.48610/a13deaf)仍为全球学者提供了不可替代的研究基石。未来结合更多样化人群的纵向数据,将进一步推动皮肤癌诊断算法向精准化、个性化迈进。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号