
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大型语言模型的方法,能够低成本、快速且准确地从荷兰病理报告中自动提取预测性生物标志物检测结果
《Virchows Archiv》:Large language model-based approach for low-cost, rapid and accurate automated extraction of predictive biomarker testing results from Dutch pathology reports
【字体: 大 中 小 】 时间:2025年12月01日 来源:Virchows Archiv 3.1
编辑推荐:
本研究利用大型语言模型(LLM)开发方法,从荷兰非小细胞肺癌(NSCLC)患者的病理报告中准确提取EGFR和KRAS生物标志物检测数据,F1分数达0.95以上,为医疗质量评估和全国性回顾性研究提供高效工具。
国家癌症登记系统和病理报告数据库包含了宝贵的实际信息,这些信息可用于评估医疗质量或进行回顾性观察研究。由于许多此类数据目前是非结构化或半结构化的,因此需要手动提取信息,这不仅耗时费力,还会显著延迟数据分析进程。本研究旨在开发一种基于大型语言模型(LLM)的方法,从非小细胞肺癌(NSCLC)患者的病理报告中提取两种常规检测的预测性生物标志物——EGFR和KRAS的检测数据。患者队列和病理报告来自荷兰癌症登记处(NCR)以及荷兰全国性的病理数据库(Palga)。训练、测试和验证使用了2019年在荷兰被诊断为转移性NSCLC的3887名患者的EGFR和KRAS检测数据,这些数据是手动收集的。标注的数据包括EGFR和KRAS的检测状态、下一代测序(NGS)的使用情况以及具体的突变结果。在2019年队列的测试集中,该模型对所有变量(整体生物标志物检测状态、KRAS/EGFR检测、KRAS/EGFR检测结果)的(微)F1分数均达到了≥0.98。训练好的模型随后被应用于2022年7月至2023年6月期间被诊断为NSCLC的4122名患者的病理报告,其中410例病例进行了手动标注以确定模型的准确性。在该测试集中,(微)F1分数达到了≥0.95。所有手动标注的阳性分子检测结果均未被遗漏。报告的突变标准化标记在KRAS和EGFR突变中分别有98.7%和100.0%是正确的。在整个2022–2023年队列中,模型的检测准确率分别为KRAS的88.1%和EGFR的86.4%。在检测到的患者中,模型分别正确识别出40.5%和11.5%的KRAS和EGFR阳性检测结果。本研究展示了利用基于LLM的模型从肺癌患者的病理报告中准确提取生物标志物检测结果的可能性。这一应用使得生物标志物检测的评估能够快速、低成本地进行,可用于评估荷兰全国范围内的指南遵守情况以及回顾性生物标志物随访研究。
国家癌症登记系统和病理报告数据库包含了宝贵的实际信息,这些信息可用于评估医疗质量或进行回顾性观察研究。由于许多此类数据目前是非结构化或半结构化的,因此需要手动提取信息,这不仅耗时费力,还会显著延迟数据分析进程。本研究旨在开发一种基于大型语言模型(LLM)的方法,从非小细胞肺癌(NSCLC)患者的病理报告中提取两种常规检测的预测性生物标志物——EGFR和KRAS的检测数据。患者队列和病理报告来自荷兰癌症登记处(NCR)以及荷兰全国性的病理数据库(Palga)。训练、测试和验证使用了2019年在荷兰被诊断为转移性NSCLC的3887名患者的EGFR和KRAS检测数据,这些数据是手动收集的。标注的数据包括EGFR和KRAS的检测状态、下一代测序(NGS)的使用情况以及具体的突变结果。在2019年队列的测试集中,该模型对所有变量(整体生物标志物检测状态、KRAS/EGFR检测、KRAS/EGFR检测结果)的(微)F1分数均达到了≥0.98。训练好的模型随后被应用于2022年7月至2023年6月期间被诊断为NSCLC的4122名患者的病理报告,其中410例病例进行了手动标注以确定模型的准确性。在该测试集中,(微)F1分数达到了≥0.95。所有手动标注的阳性分子检测结果均未被遗漏。报告的突变标准化标记在KRAS和EGFR突变中分别有98.7%和100.0%是正确的。在整个2022–2023年队列中,模型的检测准确率分别为KRAS的88.1%和EGFR的86.4%。在检测到的患者中,模型分别正确识别出40.5%和11.5%的KRAS和EGFR阳性检测结果。本研究展示了利用基于LLM的模型从肺癌患者的病理报告中准确提取生物标志物检测结果的可能性。这一应用使得生物标志物检测的评估能够快速、低成本地进行,可用于评估荷兰全国范围内的指南遵守情况以及回顾性生物标志物随访研究。
生物通微信公众号
知名企业招聘