皮肤色调评估量表在皮肤病数据集标注中的前瞻性比较研究:提升AI公平性的关键探索

《npj Digital Medicine》:Evaluating skin tone scales for dermatologic dataset labeling: a prospective-comparative study

【字体: 时间:2025年12月24日 来源:npj Digital Medicine 15.1

编辑推荐:

  本研究针对皮肤色调标注缺乏标准化验证的问题,前瞻性比较了Fitzpatrick皮肤分型(FST)、Monk肤色量表(MST)、Pantone肤色指南等主观工具与客观色度计的可靠性。研究发现MST在肤色空间聚类表现更优,且能更有效捕捉AI算法性能差异,强调FST不能替代真实肤色测量,为皮肤病AI数据集标注提供了关键方法学依据。

  
在人工智能(AI)革命席卷医疗领域的今天,皮肤病学成为AI技术应用的前沿阵地。基于深度学习的皮肤镜图像分析系统,在黑色素瘤等皮肤癌的辅助诊断中展现出巨大潜力,有望缓解皮肤科医生资源不足的压力。然而,这些看似强大的AI模型却隐藏着一个严峻问题:它们在深色皮肤人群中的诊断准确性显著下降。这种性能差异可能加剧现有的医疗不平等,导致对深色皮肤患者的误诊风险增加。
问题的根源在于训练AI模型的数据集。当前大多数皮肤病图像数据库缺乏准确的皮肤色调标签,使得开发者难以评估和改善算法在不同肤色人群中的表现。因此,如何可靠地标注皮肤色调,成为提升皮肤病AI公平性的关键挑战。
测量皮肤色调并非易事。目前存在多种评估工具,但各有局限:Fitzpatrick皮肤分型(Fitzpatrick Skin Type, FST)是皮肤病学中最常用的量表,但它最初是为评估皮肤光敏感性而设计,并非直接测量肤色;Monk肤色量表(Monk Skin Tone, MST)包含10种色调,专为图像标注开发;Pantone肤色指南(Pantone SkinTone Guide)则提供138种色板,考虑色调和色素变化;而色度计可通过测量L*a*b*色值,客观量化皮肤颜色。
尽管这些工具已被广泛应用,但大规模验证研究缺乏,特别是在临床环境下不同评估方法的比较研究不足。为此,Memorial Sloan Kettering癌症中心的研究团队在《npj Digital Medicine》上发表了一项前瞻性比较研究,系统评估了多种皮肤色调评估工具在皮肤病数据集标注中的可靠性。
关键技术方法
研究招募了64名接受全身皮肤检查的患者,确保FST I-VI型均匀分布。对每位患者的5-13个皮损和11个标准非皮损部位,由两名评估者独立使用MST、Pantone和色度计进行现场肤色评估。同时采集皮肤镜图像和三维全身摄影(3D TBP),分析基于图像的肤色评估可靠性。还通过 crowdsourcing平台获取了1,327名用户对皮肤镜图像的FST标注。使用ADAE算法(一种高性能黑色素瘤分类AI)分析良性皮损的算法评分分布差异。
现场皮肤色调评估工具的可靠性
研究发现,不同评估工具在现场评估中的可靠性存在显著差异。MST显示出最高的评估者间一致性(线性加权Cohen's kappaκ: 0.75),在腹部、上臂内侧和前臂等部位一致性接近完美(κ: 0.80)。相比之下,Pantone量表在色调(κ: 0.37)和色素(κ: 0.45)评估上一致性较低。色度计测量个体拓扑角度(Individual Typology Angle, ITA)则表现出近乎完美的可靠性(组内相关系数ICC: 0.98)。
客观色度计vs主观评估工具
聚类分析显示,MST评估在CIELAB色彩空间中的聚类程度略优于FST和Pantone(Davies-Bouldin Index, DBI: 2.70)。FST的聚类表现最差(DBI: 10.59),特别是在FST IV-VI型中分散度最大,表明FST类别涵盖的真实肤色范围很广,验证了FST不适合作为肤色代用指标的观点。
基于摄影的皮肤色调标注
对于三维全身摄影为基础的评估,交叉偏振(XP)和白光(WL)设置下的MST评估与现场评估具有实质性一致性(κ: 0.66和0.61)。值得注意的是,WL成像倾向于将肤色评估偏浅(平均差: -0.70),而XP成像仅轻微偏深(平均差: +0.15),更接近现场评估。
从皮肤镜图像提取的ITA值与色度计测量的ITA值一致性很差(ICC: 0.00-0.19),表明图像提取的颜色值受皮肤镜模式(偏振vs非偏振)和设备特定颜色处理的系统性影响。
众包的FST标注与皮肤科医生确定的现场FST整体一致性为55.8%,对FST VI(79.6%)和I(74.2%)的一致性最高,对FST IV(36.1%)和II(46.3%)最低,准确性还受解剖部位和皮肤镜模式影响。
良性病变分类的公平性评估
使用ADAE算法对良性病变的分析发现,按MST分层的算法评分分布差异比按FST分层更为明显。Kolmogorov-Smirnov(KS)统计量显示,随着MST色调差异增大,算法评分分布的差异也更为显著,表明MST比FST更能捕捉算法性能的差异。
研究结论与意义
这项研究全面评估了多种皮肤色调评估工具在皮肤病学AI应用中的实用性,得出几个重要结论:首先,色度计作为客观测量工具具有高精度和可靠性,但成本和应用场景限制其广泛使用;其次,在主观评估工具中,MST在肤色空间聚类和评估者间一致性方面表现最佳,且能更有效地识别AI算法性能差异;第三,FST作为目前最常用的分类系统,与实际肤色关联较弱,不适合作为肤色代用指标;最后,基于图像的肤色评估受成像条件影响显著,需谨慎解读。
研究的实际意义在于为皮肤病AI数据集标注提供了实证依据。研究表明,虽然尚无完美工具,但MST在实用性、可靠性和敏感性方面表现均衡,是当前较为合适的标注选择。同时,研究强调了开发更客观、标准化肤色评估方法的迫切性,特别是能够减少评估者主观偏见的方法。
值得注意的是,主观肤色评估受到社会文化因素影响,包括隐性偏见、种族刻板印象和肤色主义。研究表明,评估者和被评估者的种族都会影响MST和FST分类,即使客观肤色亮度保持不变。这进一步强调了向更客观方法转变的必要性。
该研究创建的皮肤色调标注数据集将成为未来AI开发的重要资源,有助于推动更公平、更具代表性的皮肤病AI模型发展。随着AI在医疗诊断中的应用日益广泛,确保这些技术对所有皮肤色调患者都有效可靠,不仅是技术问题,更是医疗公平性的核心议题。
这项研究为皮肤病学AI领域提供了重要的方法学基础,指明了提升算法公平性的实践路径。未来需要更多大规模、多中心研究来验证这些发现,并开发更精准、可靠的肤色评估工具,最终实现AI在皮肤病诊断中的全面公平应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号