评估多模态大语言模型在皮肤镜图像皮肤病识别中的性别和年龄偏差:开拓精准医疗新视野

《Health Data Science》:Evaluating Sex and Age Biases in Multimodal Large Language Models for Skin Disease Identification from Dermatoscopic Images

【字体: 时间:2025年04月03日 来源:Health Data Science

编辑推荐:

  在医疗领域,多模态大语言模型(LLMs)应用广泛但可靠性存疑。研究人员针对皮肤疾病识别,测试 ChatGPT-4 和 LLaVA-1.6 性能,评估性别和年龄偏差。结果显示,LLMs 表现良好且 ChatGPT-4 更公平。这为皮肤科应用提供依据,助力医疗诊断。

  在当今科技飞速发展的时代,人工智能(AI)已逐渐渗透到医疗领域的各个角落。其中,大语言模型(LLMs)的出现,如 OpenAI 的 Chat Generative Pre-trained Transformer(ChatGPT),为医疗诊断带来了新的可能。然而,随着其在医疗场景中的应用逐渐增多,诸多问题也浮出水面。一方面,人们对其在医疗应用中的可靠性存在担忧,毕竟医疗诊断关乎患者的生命健康,任何错误都可能引发严重后果;另一方面,公平性问题也备受关注,例如模型在不同性别、年龄群体中的表现是否一致,是否会对某些群体存在偏见,这些都是亟待解决的重要问题。
在此背景下,为了探索多模态 LLMs 在皮肤疾病识别中的实际应用,并评估其在性别和年龄方面的偏差,来自未知研究机构的研究人员开展了一项重要研究。该研究成果发表在《Health Data Science》上。

研究人员主要运用了以下几种关键技术方法:首先,使用了 HAM10000 数据集的子集,该数据集包含约 10,000 张皮肤镜图像,涵盖 3 种皮肤疾病(黑色素瘤、黑素细胞痣和良性角化样病变),为研究提供了丰富的数据支持;其次,将 ChatGPT-4 和 Large Language and Vision Assistant(LLaVA)v1.6 与多种深度学习模型进行对比,包括基于卷积神经网络(CNN)的 VGG16、ResNet50、Model Derm,以及基于视觉 Transformer 的 Swin-B 等,通过对比评估不同模型的性能;最后,采用了卡方检验和平均优势差异(AOD)等公平性评估指标,对模型在不同性别和年龄群体中的表现进行量化分析。

下面来看具体的研究结果:

  • 数据集和实验设置:研究人员从 HAM10000 数据集中选取了 8,917 张图像,涉及 3 种皮肤疾病,对数据进行平衡处理后得到 3,327 张图像的数据集,并随机划分出测试集和训练集。同时,将样本按性别分为女性和男性两组,按年龄分为年轻(0 - 39 岁)、中年(40 - 59 岁)和老年(60 + 岁)三组。在参数设置方面,对不同模型进行了相应的训练和优化,如 Swin-B 模型训练时设置了学习率为 5×10-5,最大训练 50 个 epoch 等。
  • 有效性评估:在皮肤病识别任务中,ChatGPT-4 和 LLaVA-1.6 整体准确率高于基于 CNN 的基线模型,但低于 Swin-B。ChatGPT-4 在识别黑色素瘤方面表现出色,尤其在年轻群体中准确率高达 0.792;而 LLaVA-1.6 在识别良性角化样病变方面表现突出,老年组的准确率可达 0.813。此外,通过分析混淆矩阵发现,ChatGPT-4 易将良性角化样病变误判为黑色素瘤,VGG16 和 ResNet50 也存在类似误判情况。
  • 公平性评估:从公平性评估结果来看,ChatGPT-4 在性别和年龄组中表现出最高的公平性,无显著性能差异;LLaVA-1.6 在性别组中存在显著偏差,尤其在黑素细胞痣样本中;Swin-B 在年龄组中对黑素细胞痣样本存在显著偏差。其他基线模型如 VGG16、ResNet50 和 Model Derm 也存在不同程度的性别和年龄偏差。
  • 货币和时间成本分析:零样本 LLMs 无需训练时间,但推理时间长,且预测需人工解释,成本较高,如 ChatGPT-4 的 API 使用需付费;而本地训练的基线模型虽然训练时间长,但推理时间短,成本较低。

综合研究结论和讨论部分,该研究意义重大。研究表明,多模态 LLMs 在皮肤科应用中具有潜力,能为医生和从业者提供诊断建议和患者筛查帮助。然而,目前的研究仍存在一定局限性,如数据集单一、样本可能存在重复、实验仅进行一次等。未来需要使用更大、更多样化的数据集进行实验,开展提示的敏感性分析,评估更多多模态 LLMs 在各种皮肤病任务中的表现,以进一步提高模型的可靠性和公平性。这不仅有助于推动人工智能在皮肤科领域的应用,也为未来医疗诊断的发展提供了重要的参考方向,有望在医疗实践中实现更精准、公平的诊断服务,造福广大患者。

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒

10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹

婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村

闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号