《Communications Medicine》:Comprehensive testing of large language models for extraction of structured data in pathology
编辑推荐:
在病理学领域,病理科室产生大量非结构化文本诊断报告,转化为结构化数据困难重重。研究人员针对此开展 “Comprehensive testing of large language models for extraction of structured data in pathology” 研究。结果显示开源大语言模型(LLMs)能高精度提取数据,与 GPT-4 相当。这为医疗机构提供了经济且隐私友好的解决方案。
在医学领域的病理学研究中,病理科室积累了海量宝贵数据,这些数据常以自由文本形式存在于诊断报告里,如同杂乱无章的 “数据迷宫” 。对于小型和大型病理科室而言,每年分别能处理 20,000 至 200,000 个病例,并且这些病例会被存档至少 10 年,这使得大型病理机构可能拥有多达数百万个独特病例。其中,至少 50% 的病例源于肿瘤学领域,它们对于开发病理学人工智能(AI)工具、深入了解患者护理的各个方面都有着极高价值。然而,目前大多数病理报告采用自由文本描述和诊断,这极大地限制了从病理档案中查询特定病例类别,以及使用这些病例训练需要精确输入数据标注的 AI 工具的能力。传统的数据提取方法,如基于规则的系统或传统机器学习方法,存在通用性差、性能不佳等问题,难以满足实际需求。同时,使用先进语言模型虽有潜力,但此前研究多依赖专有模型,不仅成本高昂,还存在隐私隐患,并且诸如提示工程和模型量化等关键方面也未得到充分研究。
为了解决这些难题,德国科隆大学医院病理研究所(Institute of Pathology, University Hospital Cologne)的研究人员开展了一项极具意义的研究。他们的研究成果发表在《Communications Medicine》上,为该领域带来了新的曙光。
研究人员在开展研究时,运用了多种关键技术方法。首先,收集了 340 例前列腺腺癌患者在 2020 年至 2022 年间接受根治性前列腺切除术的 579 份病理报告作为样本队列。然后,使用 DeepL API 将德语报告翻译成英语。对于语言模型的评估,利用 OpenAI API 调用 GPT-4 ,通过 Hugging Face API 获取 Llama2 和 Llama3 模型权重,并分别在不同硬件环境下运行。采用零样本提示、少样本提示等多种提示策略,以评估模型提取结构化数据的能力。同时,运用量化技术将部分模型量化为 4 位,在消费级笔记本电脑上进行测试。
下面来看具体的研究结果:
开源 LLM Llama3 与 GPT-4 在数据提取上表现相当 :研究人员对多种全权重模型进行评估,发现 GPT-4 和 Llama3 70B 在从病理报告中提取 11 个参数的结构化数据时,整体准确率在两种语言中均超 97%,表现出色。Llama3 8B 虽模型参数相对较小,但也取得了不错的成绩,英语和德语的整体准确率分别为 91% 和 83%。相比之下,Llama2 系列模型的性能则明显较低。此外,在生成正确格式 JSON 文件的能力上,GPT-4 和 Llama3 系列表现优异,Llama2 则存在较多问题。从数据提取时间来看,Llama3 8B 处理速度最快,Llama2 70B 则较慢。
深入分析 LLM 输出错误的常见模式 :通过对模型输出错误的详细分析,发现存在多种错误模式。例如,在报告次要 Gleason 模式的百分比时容易混淆,以及将淋巴结状态(pN)与神经周围浸润(Pn)状态弄混等。同时,还研究了模型的幻觉现象,即提供不存在的信息。结果显示,GPT-4 未出现幻觉,Llama3 系列模型幻觉发生率较低,Llama2 系列则相对较高。此外,研究还发现文本复杂度对 Llama2 模型的提取结果有影响,随着令牌数增加,其准确率下降。
量化 LLMs 结合提示策略在数据提取上效果各异 :研究人员利用量化技术,在消费级硬件(MacBook Pro M1,16GB RAM)上测试了 Llama2 13B、Llama3 8B 和 Qwen2.5 7B 这三个开源 LLMs 的 4 位量化版本,并结合五种常用提示策略进行分析。结果表明,与最初测试的 16 位版本 LLMs 相比,所有模型性能均大幅下降,且不同提示策略的效果差异显著。对于 Llama3 和 Llama2,链验证(chain-of-verification)策略效果最佳;Qwen2.5 则在零样本(zero-shot)和链验证策略下表现最佳。
在研究结论与讨论部分,研究人员指出,他们创建了一个包含高质量真实数据的数据集,涵盖了前列腺癌根治性前列腺切除术病例,并且进行了德英双语测试,验证了从病理报告中准确提取相关信息的可行性。研究发现不同类型的 LLMs 性能差异明显,开源模型如 Llama3 在精度上可与 GPT-4 相媲美,且具有成本低、隐私性好等优势。同时,提示工程和模型量化对模型性能有重要影响,但量化模型的性能仍有待提高。与其他研究相比,该研究对多种开源 LLMs 进行了更全面的评估。不过,研究也存在一定局限性,如未明确研究结果对其他恶性肿瘤切除标本的适用性,且未对预训练于医学数据的模型进行研究。尽管如此,这项研究为后续在医学领域利用大语言模型进行结构化数据提取提供了重要的参考依据,推动了相关领域的发展,为未来病理学 AI 工具的开发和优化奠定了坚实基础。
闂備胶鎳撻悘姘跺箲娴h櫣鐭堥柨鐕傛嫹
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒
10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹
婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村
闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷
濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�