面向电话随访临床结局判读的领域大语言模型:一项多中心随机临床试验的二次分析

《Nature Communications》:A large language model for clinical outcome adjudication from telephone follow-up interviews: a secondary analysis of a multicenter randomized clinical trial

【字体: 时间:2025年12月02日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对大规模临床试验中电话随访结局人工判读工作繁重、易出错的难题,开发了一种领域特异性大语言模型Fu-LLM。该研究通过对多中心随机临床试验(China CT-FFR Study 3)的1046段电话随访对话进行分析,证实Fu-LLM在自动化判读死亡、住院、侵入性冠状动脉造影(ICA)和用药等关键临床事件方面,不仅显著优于主流大模型(GPT-4、Claude 3.5等)和传统机器学习模型,其判读一致性(93.7%)、敏感性(97.5%)和特异性(95.0%)甚至超过了人类判读员。这项工作为自动化、精准化临床结局判读提供了有力工具,有望大幅提升大型临床试验的效率与质量。

  
在医学研究的前沿阵地,大型随机对照临床试验(RCT)是评估新疗法、新诊断技术安全性与有效性的“金标准”。然而,确保这些试验科学严谨的一个关键环节,是长期、规范地对参与试验的患者进行随访,以准确捕获其健康状况的演变,即所谓的“临床结局”。电话访谈因其便捷、高效、覆盖面广,成为多中心临床试验中最常用的随访方式之一。但随之而来的海量通话录音,其人工转录、信息提取和临床事件(如是否住院、是否接受特定手术、是否死亡等)的判读,却是一项极其繁重、耗时且容易出错的任务。传统的人工判读不仅给研究人员带来巨大负担,也可能因主观因素或信息遗漏影响数据质量。尽管交互式语音应答系统(IVRS)和基于规则的自然语言处理(NLP)技术曾被尝试用于自动化处理,但它们往往缺乏对临床对话上下文的理解能力,难以应对非结构化的、充满口语化表达的对话内容。
近年来,大语言模型(LLM)在理解和生成自然语言方面展现出惊人能力,并在医疗文本处理领域显示出潜力。然而,通用的LLM在处理临床对话时,仍面临领域知识错误(如“幻觉”,即生成不实信息)、输出结果随时间漂移(不同版本模型表现不稳定)以及缺乏针对特定临床任务充分验证等挑战。因此,开发专门针对临床随访对话进行优化、性能稳定可靠的领域特异性LLM,对于推动临床试验的自动化、智能化发展至关重要。
为此,由张龙江教授领衔的研究团队在《Nature Communications》上发表了一项重要研究。他们基于一项大型多中心前瞻性随机临床试验——“中国CT-FFR研究3”(China CT-FFR Study 3)的二次分析,开发并验证了一个名为Fu-LLM的领域特异性大语言模型,旨在自动化地从电话随访访谈中判读关键的临床结局。该研究令人振奋地发现,Fu-LLM不仅超越了当前顶尖的通用LLM(如GPT-4、Claude 3.5-Sonnet等)和传统机器学习方法,其判读的准确性和一致性甚至优于经验丰富的人类判读员,为大规模临床试验的结局管理提供了一种高效、精准的自动化解决方案。
研究人员为开展此项研究,主要运用了几项关键技术方法:首先,研究数据来源于China CT-FFR Study 3试验中三个中心(金陵医院、南京市第一医院、济宁医学院附属医院)保存的1年电话随访录音,最终纳入1046段对话记录。其次,研究团队以开源的Qwen2-7B模型为基础,通过监督微调(SFT)结合低秩自适应(LoRA)技术,开发了领域专用的Fu-LLM。为了克服初始数据量有限的挑战,他们采用了数据改写和数据合成两种策略进行数据增强,最终生成了超过1.9万条高质量训练样本。模型性能通过五折交叉验证进行评估。此外,研究还系统比较了Fu-LLM与多种主流通用LLM(如GPT-3.5-turbo, GPT-4o, DeepSeek-v3, Claude 3.5-Sonnet, Gemini-2.0-Pro)、传统支持向量机(SVM)模型以及人类判读员的性能差异,并检验了通用LLM(GPT-4)在不同时间点的输出稳定性(时间漂移测试)。
研究结果
研究设计与参与者
本研究是对China CT-FFR Study 3(中国临床试验注册中心标识符:ChiCTR2100053219)的二次分析。该试验在全国17家三级医院开展,共招募5410名疑似冠心病患者,随机分配至冠状动脉CT血管成像(CCTA)联合CT血流储备分数(CT-FFR)检查组或单独CCTA检查组。本二次分析纳入了其中三个中心保存有完整1年电话随访录音的参与者,最终包含1046段对话记录(对应1022名参与者,平均年龄63.1岁,女性占39.4%)。所有录音均先通过科大讯飞语音技术转换为文本,作为模型的输入。
构建白银参考标准
由三位经验丰富的随访专业人员根据预设的判读标准(分为“是”、“否”、“不确定”、“未提及”四类),独立对每段通话文本进行五种临床结局的判读,包括:信息是否来源于参与者本人、随访期间是否死亡、是否住院、是否接受手术(特指侵入性冠状动脉造影,ICA)以及是否服药。对于判读不一致的案例,由专家小组仲裁决定,最终形成“白银参考标准”,用于模型训练和性能评估。
领域优化LLM模型(Fu-LLM)的开发与结局预判读
研究团队通过对Qwen2-7B模型进行监督微调,开发了Fu-LLM。在仅使用原始数据(未增强)微调的模型基础上,引入数据增强策略(改写和合成)后得到的Fu-LLM(finetune_qwen2_7b)表现最佳。其在五折交叉验证中,对所有五种结局的总体原始一致率达到93.7%(95% CI, 93.1-94.3),显著高于未使用数据增强的模型(88.9%)和零样本基础的Qwen2-7B模型(72.5%)。针对白银参考标准中明确的“是/否”判读,Fu-LLM的敏感性高达97.5%,特异性为95.0%,阴性预测值(NPV)达到98.2%,显示出极高的判读准确性。
Fu-LLM结局预判读的风险因素分析
多变量分析显示,某些基线特征(如吸烟状况、基线胸闷症状)和治疗中心(JNU中心)是影响Fu-LLM对特定结局(如信息来源、住院事件)判读一致性的独立风险因素。然而,对话文本的长度和持续时间并未显示出对任何结局判读的显著影响。亚组分析表明,Fu-LLM在CCTA组和CCTA+CT-FFR组的性能无显著差异,提示其判读能力不受治疗分组影响。
Fu-LLM与不同提示策略和不同时间点GPT-4的比较
研究人员比较了Fu-LLM与GPT-4在三种不同提示策略(零样本、零样本思维链、单样本)下的表现。结果显示,零样本提示策略下GPT-4的总体一致率最高,为87.6%,但仍显著低于Fu-LLM(93.7%)。时间漂移测试发现,GPT-4在三个不同时间点(2023年9月、2024年1月、2025年4月)的判读性能存在显著波动,而Fu-LLM则表现出优异的稳定性,其总体一致率、敏感性、特异性在不同时间点均优于或等同于波动中的GPT-4。
与五种主流公共LLM模型的基准比较
使用最优的零样本提示,将Fu-LLM与五种先进的公共LLM进行对比。Fu-LLM在总体一致率和敏感性上均显著优于所有对比模型(DeepSeek-v3, GPT-3.5-turbo, GPT-4o, Claude 3.5-Sonnet, Gemini-2.0-Pro)。其特异性与GPT-4o、Claude 3.5-Sonnet、Gemini-2.0-Pro相当,但显著高于DeepSeek-v3。
机器学习模型用于结局预判读的开发
作为与传统方法的对比,研究还构建了基于支持向量机(SVM)结合TF-IDF或Word2Vec特征的模型。尽管数据增强后SVM模型的性能有所提升(总体一致率约81%),但其在所有评估指标上均显著逊色于Fu-LLM。
Fu-LLM与人类工作人员性能比较
在一项计算机模拟的人机对比研究中,四位具有约30次电话随访经验的放射科住院医师对来自陌生地区的随访文本进行判读。结果显示,人类判读员的总体一致率(83.4%)、敏感性(85.5%)和特异性(87.0%)均显著低于Fu-LLM(分别为92.3%, 97.5%, 93.1%)。研究还探讨了“人机混合”策略的效能:若由Fu-LLM先进行初判,人类判读员仅需复核Fu-LLM判读为“是”的案例,即可在减少约57.2%工作量的同时,仍能捕获97.5%的真实阳性事件。
Fu-LLM判读与黄金参考标准的比较
针对由临床事件委员会(CEC)根据电话访谈和医疗记录最终判读的“死亡”和“ICA”事件(黄金参考标准),Fu-LLM与白银参考标准均表现出高度一致性。对于死亡事件,Fu-LLM与黄金标准完全一致。对于ICA事件,白银参考标准显示出比Fu-LLM略高的原始一致率和特异性,但两者敏感性相当。
研究结论与意义
本研究成功开发并验证了首个专门用于从电话随访对话中自动化判读临床结局的领域大语言模型Fu-LLM。通过在一项大规模多中心随机临床试验的真实世界数据上进行严格评估,研究证实Fu-LLM在自动化判读多种关键临床事件方面,具有超越当前顶尖通用大语言模型、传统机器学习方法乃至人类判读员的卓越性能。其高敏感性,特别是极高的阴性预测值,意味着Fu-LLM能够非常可靠地排除未发生目标事件的案例,这使得“人机协作”模式成为可能,即由模型完成大部分阴性案例的自动化判读,人类专家则集中精力处理模型筛选出的阳性或疑难案例,从而有望将人工判读工作量减少一半以上,显著提升大型临床试验随访工作的效率和成本效益。
Fu-LLM的成功实践,标志着人工智能在临床研究操作自动化方面迈出了关键一步。它不仅为解决临床试验中长期存在的随访数据判读负担过重问题提供了强有力的技术工具,其表现出的稳定性也凸显了领域特异性微调在提升LLM临床任务适用性方面的重要性。尽管模型仍存在对某些模糊表述(如将“健康体检”误判为“住院”)处理不足等局限性,且其部署仍需克服整合电子健康记录(EHR)系统、确保关键事件零遗漏等挑战,但这项研究无疑为未来利用领域专用AI模型优化临床试验设计、患者筛查、招募乃至全流程质量管理开辟了新的道路。随着深度学习架构的持续演进和多模态能力的融合,像Fu-LLM这样的专用工具有望进一步革新临床研究范式,赋能更高效、更精准的生物医学研究,最终惠及人类健康。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号