编辑推荐:
研究人员开展大语言模型(LLMs)在临床医学评估的研究,发现其应用广泛但存挑战,对推动医疗发展意义重大。
在当今数字化时代,医疗领域正经历着前所未有的变革。大语言模型(Large Language Models,LLMs)作为人工智能领域的新兴力量,逐渐渗透到临床医学的各个方面。它基于 Transformer 架构,通过在海量数据集上进行预训练,能够学习复杂的语言模式,进而在医疗场景中展现出巨大的潜力,比如辅助医疗决策、疾病诊断以及医学教育等。然而,就像任何新技术进入医疗领域一样,LLMs 的可靠性、安全性以及是否符合伦理规范等问题,成为了人们关注的焦点。为了深入了解 LLMs 在临床医学中的真实表现,来自伊朗医科大学拉贾伊心血管医学与研究中心等机构的研究人员 Sina Shool、Sara Adimi 等人开展了一项系统性回顾研究,相关成果发表在《BMC Medical Informatics and Decision Making》杂志上。
这项研究旨在全面审视应用于临床医学中 LLMs 的评估参数和方法,明确其能力、局限性以及应用趋势。研究人员采用了全面的文献检索策略,在 PubMed、Scopus、Web of Science、IEEE Xplore 和 arXiv 等数据库中进行搜索,涵盖了同行评审和预印本研究。他们制定了明确的纳入和排除标准,筛选出评估 LLMs 在医学背景下性能的原创研究。
在研究方法上,研究人员首先进行文献检索,确定了一系列与 “评估”“大语言模型”“人工智能聊天机器人” 以及 “医学和临床实践” 相关的关键词和医学主题词(MeSH)。接着,依据严格的筛选标准,对检索到的文献进行层层筛选。在数据提取阶段,针对剩余的文章,研究人员通过回答 11 个关键问题,详细提取相关信息,确保全面、无偏地评估 LLMs 在医疗环境中的表现。
研究结果显示,LLMs 在临床环境中的研究热度呈指数级增长。从 2019 年的 1 篇相关文章,到 2024 年激增至 557 篇,这一趋势直观地反映出该领域研究的迅速发展。在评估的 LLMs 中,通用领域的 LLMs 占据主导地位(93.55%),其中 ChatGPT 和 GPT-4 等解码器模型被频繁评估。而医学领域的 LLMs 仅占 6.45%,但像 Meditron 和 HuatuoGPT 等模型在医学领域也展现出了一定的潜力。在评估的医学专科方面,外科是研究最多的专科(28.2%),眼科、骨科等亚专科研究较多,而心内科(1.9%)和急诊科(2.7%)等关键专科的研究相对较少。
在评估参数方面,准确性是最常被评估的参数(21.78%),这反映出在临床环境中,人们对 LLMs 输出结果精确性的高度重视。此外,可读性、可靠性等参数也受到一定关注,但安全性、偏差和适用性等参数的评估相对较少。通过对不同研究分组的分析发现,不同应用目的和评估方法的研究,对 LLMs 的评估重点有所不同。例如,用于教育目的的研究更注重可读性和全面性,而用于考试和评估目的的研究则更强调准确性和正确性。
研究结论和讨论部分指出,LLMs 在临床医学中的应用潜力巨大,有望革新医学诊断、教育和患者护理等方面。然而,目前仍面临诸多挑战。首先,缺乏标准化的评估框架,导致研究设计和评估方法存在差异,难以对不同模型进行有效比较。其次,伦理问题不容忽视,如数据隐私、模型产生错误信息的风险等。此外,关键专科的研究不足,限制了 LLMs 在这些领域的有效应用。为了推动 LLMs 在临床医学中的合理应用,未来需要跨学科合作,制定标准化评估框架,加强伦理考量,并针对高需求和服务不足的领域开展更多研究,以充分发挥 LLMs 的优势,提升医疗服务质量。
总的来说,这项研究为我们深入了解 LLMs 在临床医学中的评估现状提供了全面的视角,虽然目前 LLMs 在医疗领域的发展还面临诸多挑战,但只要合理应对,其有望为医疗行业带来更加高效、精准的服务,开启医疗智能化的新篇章。