编辑推荐:
为解决 LLMs 在医疗应用中的非确定性、有害回复及质量控制问题,相关研究人员开展基于 actor - critic 框架优化 LLMs 医疗应用的研究,结果显示 VSC 回复常获高评级。推荐阅读,助你了解 LLMs 医疗应用前沿进展。
在当今科技飞速发展的时代,大语言模型(LLMs)凭借其强大的知识获取能力,逐渐在各个领域崭露头角,医疗领域也不例外。人们对利用聊天机器人进行医疗应用充满期待,比如为患者提供医疗咨询、辅助医生进行诊断等。然而,LLMs 在医疗应用中却面临着诸多挑战。
就像一个看似功能强大却不太靠谱的助手,LLMs 存在不少让人头疼的问题。它具有非确定性,同样的问题可能给出不同的答案;还可能产生有害的回复,比如提供错误的医疗建议;而且缺乏有效的质量控制,就像没有严格把关的生产线,产出的 “产品” 质量参差不齐。这些问题使得 LLMs 在医疗领域的应用充满风险,就像在医疗的 “高速公路” 上埋下了许多 “暗雷”。
为了解决这些问题,推动 LLMs 在医疗领域的安全有效应用,来自相关研究机构的研究人员开展了深入研究,并在《Nature Communications》期刊上发表了题为《Optimizing large language models for medical applications: an actor–critic approach》的论文。
研究人员提出了一种基于演员 - 评论家(actor - critic)框架的方法,旨在提高 LLMs 在医疗应用中的可靠性和安全性。他们通过一系列实验和分析,得出了令人瞩目的结论:采用该框架训练的虚拟睡眠教练(VSC)生成的回复,在由经验丰富的认知行为疗法治疗失眠(CBT - I)的治疗师进行盲法评估时,得分常常比人类治疗师给出的合适回复还要高。这意味着这种结构化的方法为将先进的 LLM 技术安全地集成到医疗应用中奠定了坚实基础,就像是为医疗领域的 LLMs 应用找到了一条可靠的 “安全通道”。
这项研究有着重要意义。如果 LLMs 在医疗领域的问题能够得到有效解决,那将为患者和医生带来极大的便利。患者能更便捷地获取医疗知识,医生也能借助它提高工作效率,改善医疗服务的可及性,让更多人受益。
在研究过程中,研究人员运用了多个关键技术方法。首先是准备 LLMs 和特定领域知识库,包括对文档进行解析和简化,让复杂的文档变成 LLMs 容易处理的格式;通过不同的文本分块方式,如固定大小分块、递归分块、文档特定分块和语义分块等,保留文本上下文信息;利用增强的搜索和检索技术,提升信息获取的准确性。其次是采用特定的 LLM 架构和实现方式,使用PyPDF2
库的PdfReader
类提取 PDF 文件内容,通过langchain.text_splitter
模块的RecursiveCharacterTextSplitter
进行文本分块,用本地运行的 LLaMA 3 模型将文本块嵌入向量表示并存储在 Chroma DB 数据库中。最后通过人类专家验证研究和利用其他 LLM 进行文本分析,评估 VSC 的性能 。
下面我们来看看具体的研究结果。
统计分析人类专家对人类和 VSC 回复的恰当性评级
研究人员让经验丰富的 CBT - I 治疗师对 100 个患者问题的回复进行 1 - 5 分的李克特量表评分。这些回复包括 “恰当的” CBT - I 治疗师生成的回复、VSC 生成的回复以及 “不恰当的” CBT - I 治疗师生成的回复。结果显示,VSC 生成的回复平均得分(4.327 ± 0 .883)比 “恰当的” CBT - I 治疗师生成的回复(4.071 ± 0.828)还要高,而且两者差异具有统计学意义。不过,VSC 回复得分高可能和回复长度有关,因为 VSC 生成的回复平均长度(419.58 ± 136.59 字符)比人类治疗师的(243.51 ± 81.98 字符)长。在控制回复长度后,回复类型对治疗师评分的主效应不再显著,这表明回复长度对评分有重要影响。就像是一场比赛,VSC 凭借 “回复长” 这个优势暂时领先,但这背后还有其他因素在起作用。
分配监督者角色后回复变化的示例
研究人员还给出了一个具体例子来说明监督者角色的作用。当患者询问 “我经常心里有事担心,怎么才能不担心呢?” 时,治疗师代理(Therapist agent)的初始回复主要围绕改善睡眠卫生展开,虽然改善睡眠对减少担忧有间接帮助,但没有直接回答如何停止担忧。而监督者代理(Supervisor agent)发现了这个问题,并给出了更直接的回复,如认知重构、解决问题、设定 “担忧时间”、练习正念和接地技术等,这些策略能更好地帮助患者管理白天的焦虑。这就好比一个学生答题,一开始没答到点子上,经过老师(监督者)的指导,给出了更准确的答案。
ChatGPT o1 对回复是来自人类还是 LLM 的评估及差异分析
研究人员让 ChatGPT o1 对 50 个问题的回复进行评估,判断回复是来自人类还是 LLM。ChatGPT o1 在 50 个回复中正确判断了 49 个。它还总结了 LLM 生成的回复和人类临床医生回复的差异:LLM 回复往往更详细、正式,像教科书一样,还经常包含 AI 安全免责声明,语气更中立;而人类回复更简短、实用,使用日常语言,更具个人风格和支持性,会根据具体情况给出建议。这就像是两个不同风格的老师在授课,LLM 老师讲得全面、正式,人类老师则更亲切、灵活。
从研究结论和讨论部分来看,研究人员开发的 VSC 系统通过演员 - 评论家框架,有效提高了 LLMs 在医疗应用中的可靠性和安全性。VSC 生成的回复质量和人类治疗师的相当,这说明该框架能让 LLMs 成为可靠的医疗工具。不过,这项研究也存在一些局限性。比如可能存在自我评估偏差,就像自己给自己打分,难免会有偏袒;研究只使用了 Meta LLaMa 2 这一种 LLM 架构,不同架构可能会有不同效果;样本量有限,100 个患者问题可能无法涵盖所有实际情况;评估指标具有主观性,主要依赖治疗师的主观评分;LLM 回复较长可能导致评分偏高,但研究没有区分回复长度和质量的关系。
尽管存在这些不足,但这项研究为 LLMs 在医疗领域的应用开辟了新的道路。它证明了通过限制 LLMs 的回复领域,增加二次评估层,可以提高其在医疗应用中的相关性和恰当性。未来的研究可以针对这些局限性进一步改进,不断完善 LLM 在医疗领域的应用,让 LLMs 更好地为医疗服务,就像为医疗领域注入一股强大而可靠的科技力量,帮助人们更好地应对健康问题。
打赏
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》