利用大语言模型构建甲状腺癌分期和风险分级命名实体框架,助力精准医疗

【字体: 时间:2025年03月02日 来源:npj Digital Medicine 12.4

编辑推荐:

  为解决甲状腺癌临床信息提取难题,研究人员开发 NE 框架及 LLMs 策略,提升分期和风险分类准确性。

  甲状腺癌,作为全球最常见的内分泌癌症,也是发病率位列第七的常见癌症,正逐渐走进人们的视野。在过去 40 年里,它的发病率飙升了 313%,到 2022 年,全球每 10 万人中就有 9.1 人患病 。不过幸运的是,甲状腺癌的死亡率相对较低,每 10 万人中仅有 0.44 人。在甲状腺癌的众多类型中,分化型甲状腺癌最为常见,主要包括乳头状(约 84%)和滤泡状(约 4%)甲状腺癌,占据了所有甲状腺癌病例的 90% 以上。
在临床诊疗过程中,美国癌症联合委员会(American Joint Committee on Cancer,AJCC)第 8 版 / TNM 分期系统,以及美国甲状腺协会(American Thyroid Association,ATA)风险分层系统,是医生们评估甲状腺癌患者病情的重要帮手。AJCC 第 8 版 / TNM 分期系统,就像是一个 “生存指南针”,通过保留基本的解剖病理 T - N - M 分期方法,并依据患者 55 岁的年龄界限进行分层,来预测患者的生存情况。而 ATA 风险分层系统,则像一个 “风险探测器”,根据肿瘤大小、侵袭性癌症变体的存在、甲状腺外扩展、血管侵犯、淋巴结受累等特征,将患者分为低、中、高三个风险组,帮助医生预测疾病复发或复发的风险 。

然而,确定癌症分期和 ATA 风险的信息,往往隐藏在冗长的非结构化或半结构化临床笔记中。医生们需要花费大量时间,从众多临床笔记里手动检索关键信息才能做出决策,这不仅影响了治疗的及时性,还可能降低患者的护理质量。而且,从大量非结构化数据中提取临床信息用于研究,也是一项艰巨的任务。随着人工智能(Artificial Intelligence,AI)的发展,大语言模型(Large Language Models,LLMs)展现出了强大的数据提取能力,为解决这些问题带来了希望。它能完成零样本学习、信息提取和文本总结等多种任务,给医疗领域带来了新的曙光。但目前,还没有专门的命名实体(Named Entity,NE)框架,能够从半结构化或非结构化临床笔记中提取信息,来评估两种分化型甲状腺癌(乳头状和滤泡状甲状腺癌)的 AJCC/TNM 癌症分期和 ATA 风险类别。

为了填补这一空白,香港大学的研究人员展开了深入研究。他们的研究成果发表在《npj Digital Medicine》上,为甲状腺癌的诊疗和研究带来了新的突破。

研究人员在此次研究中主要运用了以下关键技术方法:

  1. 数据来源:从公共数据集癌症基因组图谱甲状腺癌(The Cancer Genome Atlas Thyroid Cancer,TCGA - THCA)项目获取 507 例甲状腺癌患者的病理报告和临床特征,并将其进行筛选和分组,作为开发集和验证集;同时使用两位内分泌外科医生创建并标注的 35 例伪临床病例作为补充验证数据。
  2. NE 框架开发:制定注释指南,由两名注释员独立注释,临床医生标注真值;设计多种提示策略,利用 Python 的 “Langchain” 包创建推理提示模板,在 LLMs 中运行。
  3. LLM 选择与操作:选择 Mistral - 7B - Instruct - v0.3、Gemma - 2 - 9B - Instruct、Llama 3.1 - 8B - Instruct 和 Qwen2.5 - 7B - Instruct 这四个离线 LLMs,通过 Ollama 软件平台操作这些本地 LLMs 进行信息提取。
  4. 评估与验证:采用多数投票策略评估 LLMs 和方法的集成性能,通过 F1 分数、精度和召回率等指标,在开发集和验证集上对 LLMs 提取的 AJCC 第 8 版癌症分期和 ATA 风险类别进行评估。

下面来看看具体的研究结果:

  1. 患者特征:开发集的 50 例 TCGA - THCA 患者,平均年龄 54.3 岁,女性居多,主要为白人,乳头状和滤泡状癌比例与实际相符。验证集的 289 例 TCGA - THCA 患者和 35 例伪临床病例,也呈现出各自的特征 。
  2. LLMs 性能(开发集):注释员间的 kappa 一致性率为 84.3%,表明可靠性良好。所有采用少样本提示的 LLMs,在 AJCC 第 8 版癌症分期的 F1 分数达到 90.3 - 100.0%,ATA 风险分类的 F1 分数达到 88.0 - 100.0%。集成分类器在 ATA 风险和 AJCC 总体分期的 F1 分数分别为 100.0% 和 94.1%。
  3. LLMs 性能(验证集):对于 289 例 TCGA - THCA 患者,四个 LLMs 在 ATA 风险分类的 F1 分数为 88.5 - 96.5%,AJCC 癌症分期的 F1 分数为 94.2 - 99.7%,集成分类器的 F1 分数分别为 95.2 - 95.5% 和 98.1%。对于 35 例伪临床病例,集成分类器在 ATA 风险和 AJCC 分期的 F1 分数分别为 88.5% 和 90.4 - 92.9%。
  4. 错误分类调查:研究发现,LLMs 在识别甲状腺外扩展程度、受累淋巴结的最大尺寸和数量、乳头状甲状腺癌的侵袭性变体、血管侵犯的存在以及手术切缘的完整性时,容易出现错误,从而导致 AJCC 癌症分期和 ATA 风险分类的错误。

在研究结论与讨论部分,研究人员开发的 NE 框架和 LLMs 策略,采用集成多数投票策略,能够基于半结构化自由文本临床笔记,自动对甲状腺癌患者进行 AJCC 癌症分期和 ATA 风险分类。LLMs 在癌症分期和 ATA 风险分类上,对 50 例 TCGA - THCA 患者的准确率超过 90%,采用集成分类器时,F1 分数分别达到 94.1% 和 100.0%。在进一步验证中,集成分类器对 289 例 TCGA - THCA 患者的癌症分期和 ATA 风险分类的 F1 分数均超过 95.0%,对 35 例伪临床病例达到约 90.0%。这一研究成果具有重要意义,它不仅开发出了专门用于 AJCC 癌症分期和 ATA 风险分类的 NE 框架,为后续研究提供了注释指南范例,还表明了支持本地部署的轻量级 LLMs 在实际临床应用和研究中的可行性,有望提高临床诊疗效率和患者护理质量 。不过,该研究也存在一些局限性,如部分甲状腺外扩展性质难以区分、晚期患者数量少、使用的分期和指南版本可能需要更新、未评估更大参数的 LLMs 等 。未来,还需要进一步改进和研究,以推动甲状腺癌诊疗和研究的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号