基于大语言模型精准提取病理结构化数据的深度探究与突破

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Communications Medicine》：Comprehensive testing of large language models for extraction of structured data in pathology

【字体：大中小】 时间：2025年04月02日 来源：Communications Medicine 5.4

编辑推荐：

　　在病理学领域，病理科室产生大量非结构化文本诊断报告，转化为结构化数据困难重重。研究人员针对此开展 “Comprehensive testing of large language models for extraction of structured data in pathology” 研究。结果显示开源大语言模型（LLMs）能高精度提取数据，与 GPT-4 相当。这为医疗机构提供了经济且隐私友好的解决方案。

濠电偞鍨堕幑浣割浖閵娧嗗С闁斥晛鍟伴埞宥夋煕閹伴潧骞樼紒鐘哄吹缁辨帗寰勭€ｎ亞浠村銈嗗笧閸犳牠骞嗛崘顔肩妞ゅ繐妫涢崐鐐烘⒑閸︻叀妾搁柛娆忕箳濡叉劕鈹戠€ｎ偄浠洪梺缁樻煥閹碱偊鍩涢弽顓熲拺妞ゆ劧绲介崫娲煕閿濆嫬宓嗘慨濠傛健瀹曢亶寮撮悩鍙夋珦闂佸搫顦弲婊堟偡瑜旈幆渚€骞掑Δ鈧Λ姗€鏌涢妷銏℃珖鐟滄澘娼￠弻銊モ槈濡灝顏銈傛暘閸ヮ煈姊块梺閫炲苯澧撮柟宕囧枑濞煎繘濡搁敂閿亾椤曗偓閺屾稑螣閻撳孩鐎鹃梺鍝勵儏閸熸挳寮鍛殕闁告劖鍎冲▓鏌ユ⒑缂佹ê濮夐柟铏崌瀹曠敻顢氶埀顒勫极瀹ュ鏅搁柨鐕傛嫹闂佽崵濮抽梽宥夊垂閽樺）锝夊礄濮濓箰Hot缂傚倷妞掔粚鍫曞垂绾懌浜归柛銉墮閸屻劑鏌ｉ弬鎸庡暈闁诲函鎷�

　　在医学领域的病理学研究中，病理科室积累了海量宝贵数据，这些数据常以自由文本形式存在于诊断报告里，如同杂乱无章的 “数据迷宫” 。对于小型和大型病理科室而言，每年分别能处理 20,000 至 200,000 个病例，并且这些病例会被存档至少 10 年，这使得大型病理机构可能拥有多达数百万个独特病例。其中，至少 50% 的病例源于肿瘤学领域，它们对于开发病理学人工智能（AI）工具、深入了解患者护理的各个方面都有着极高价值。然而，目前大多数病理报告采用自由文本描述和诊断，这极大地限制了从病理档案中查询特定病例类别，以及使用这些病例训练需要精确输入数据标注的 AI 工具的能力。传统的数据提取方法，如基于规则的系统或传统机器学习方法，存在通用性差、性能不佳等问题，难以满足实际需求。同时，使用先进语言模型虽有潜力，但此前研究多依赖专有模型，不仅成本高昂，还存在隐私隐患，并且诸如提示工程和模型量化等关键方面也未得到充分研究。

为了解决这些难题，德国科隆大学医院病理研究所（Institute of Pathology, University Hospital Cologne）的研究人员开展了一项极具意义的研究。他们的研究成果发表在《Communications Medicine》上，为该领域带来了新的曙光。

研究人员在开展研究时，运用了多种关键技术方法。首先，收集了 340 例前列腺腺癌患者在 2020 年至 2022 年间接受根治性前列腺切除术的 579 份病理报告作为样本队列。然后，使用 DeepL API 将德语报告翻译成英语。对于语言模型的评估，利用 OpenAI API 调用 GPT-4，通过 Hugging Face API 获取 Llama2 和 Llama3 模型权重，并分别在不同硬件环境下运行。采用零样本提示、少样本提示等多种提示策略，以评估模型提取结构化数据的能力。同时，运用量化技术将部分模型量化为 4 位，在消费级笔记本电脑上进行测试。

下面来看具体的研究结果：

开源 LLM Llama3 与 GPT-4 在数据提取上表现相当：研究人员对多种全权重模型进行评估，发现 GPT-4 和 Llama3 70B 在从病理报告中提取 11 个参数的结构化数据时，整体准确率在两种语言中均超 97%，表现出色。Llama3 8B 虽模型参数相对较小，但也取得了不错的成绩，英语和德语的整体准确率分别为 91% 和 83%。相比之下，Llama2 系列模型的性能则明显较低。此外，在生成正确格式 JSON 文件的能力上，GPT-4 和 Llama3 系列表现优异，Llama2 则存在较多问题。从数据提取时间来看，Llama3 8B 处理速度最快，Llama2 70B 则较慢。
深入分析 LLM 输出错误的常见模式：通过对模型输出错误的详细分析，发现存在多种错误模式。例如，在报告次要 Gleason 模式的百分比时容易混淆，以及将淋巴结状态（pN）与神经周围浸润（Pn）状态弄混等。同时，还研究了模型的幻觉现象，即提供不存在的信息。结果显示，GPT-4 未出现幻觉，Llama3 系列模型幻觉发生率较低，Llama2 系列则相对较高。此外，研究还发现文本复杂度对 Llama2 模型的提取结果有影响，随着令牌数增加，其准确率下降。
量化 LLMs 结合提示策略在数据提取上效果各异：研究人员利用量化技术，在消费级硬件（MacBook Pro M1，16GB RAM）上测试了 Llama2 13B、Llama3 8B 和 Qwen2.5 7B 这三个开源 LLMs 的 4 位量化版本，并结合五种常用提示策略进行分析。结果表明，与最初测试的 16 位版本 LLMs 相比，所有模型性能均大幅下降，且不同提示策略的效果差异显著。对于 Llama3 和 Llama2，链验证（chain-of-verification）策略效果最佳；Qwen2.5 则在零样本（zero-shot）和链验证策略下表现最佳。

在研究结论与讨论部分，研究人员指出，他们创建了一个包含高质量真实数据的数据集，涵盖了前列腺癌根治性前列腺切除术病例，并且进行了德英双语测试，验证了从病理报告中准确提取相关信息的可行性。研究发现不同类型的 LLMs 性能差异明显，开源模型如 Llama3 在精度上可与 GPT-4 相媲美，且具有成本低、隐私性好等优势。同时，提示工程和模型量化对模型性能有重要影响，但量化模型的性能仍有待提高。与其他研究相比，该研究对多种开源 LLMs 进行了更全面的评估。不过，研究也存在一定局限性，如未明确研究结果对其他恶性肿瘤切除标本的适用性，且未对预训练于医学数据的模型进行研究。尽管如此，这项研究为后续在医学领域利用大语言模型进行结构化数据提取提供了重要的参考依据，推动了相关领域的发展，为未来病理学 AI 工具的开发和优化奠定了坚实基础。

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐ｇ矒瀹曟洟顢旈崨顖ｆ祫闂佹寧绻傞悧鎾澄熺€ｎ喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻ｅ本娈搁梻浣藉亹閻℃棃宕归搹顐ｆ珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫￠梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒

10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴ｇ懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴ｅ憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹

婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村

闂備礁鎲￠〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯￠幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎ｎ喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴ｎ唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮ｅ嫰鏌ｆ惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�