研究表明,ChatGPT在挑战ESCMID治疗脑脓肿指南时失败了

【字体: 时间:2024年04月30日 来源:AAAS

编辑推荐:

  随着人工智能(AI)准备成为临床研究和决策的基本组成部分,许多人仍然质疑ChatGPT的准确性,这是一种复杂的AI语言模型,以支持复杂的诊断和治疗过程。今年在西班牙巴塞罗那举行的ESCMID全球大会(原ECCMID)(4月27日至30日)上发表的一项新研究将ChatGPT与ESCMID关于脑脓肿管理的指南进行了比较,发现虽然ChatGPT似乎能够在大多数情况下就诊断和治疗的关键问题提供建议,但人工智能模型的一些反应可能会使患者处于危险之中

  

随着人工智能(AI)准备成为临床研究和决策的基本组成部分,许多人仍然质疑ChatGPT的准确性,这是一种复杂的人工智能语言模型,以支持复杂的诊断和治疗过程。

今年在西班牙巴塞罗那举行的ESCMID全球大会(原ECCMID)(4月27日至30日)上发表的一项新研究将ChatGPT与ESCMID关于脑脓肿管理的指南进行了比较,发现虽然ChatGPT似乎能够在大多数情况下就诊断和治疗的关键问题提供建议,但人工智能模型的一些反应可能会使患者处于危险之中。

这项研究是由ESCMID大脑传染病研究小组(ESGIB)的成员进行的,并发表在《神经病学杂志》上。

来自德国慕尼黑LMU大学医院的Susanne Dyckhoff-Shen博士是ESCMID的成员,她说:“在处理患者安全问题时,任何低于100%的事情都是失败的。”“虽然我们对ChatGPT在脑脓肿管理方面的知识感到惊讶,但在使用人工智能模型作为医疗设备时,存在一些关键限制,包括潜在的患者伤害以及使用哪些数据提供响应缺乏透明度。”

人工智能快速吸收、处理和解释大量数据集的能力提供了诱人的前景。但是,制定医疗指南是否仍然需要耗时的过程,或者在大量科学医学文献的基础上训练的人工智能模型能否在回答复杂的临床问题方面与临床专家相媲美?

脑脓肿是一种可能危及生命的中枢神经系统感染,需要立即识别和治疗,以防止严重的神经系统并发症甚至死亡。

从历史上看,脑脓肿的治疗在很大程度上是由临床经验和有限的研究指导的,但在2023年,ESCMID通过制定国际指南满足了对标准化方法的需求[1]。

为了了解ChatGPT是否能够专业评估医学研究并给出科学有效的建议,一个欧洲研究小组测试了人工智能模型,看看它是否能够准确地提供与ESCMID指南有关的脑脓肿诊断和治疗的10个关键问题的答案。

首先,研究人员要求ChatGPT(版本4)回答10个问题,这些问题是由ESCMID委员会为他们的脑脓肿指南制定和评估的,没有任何额外的信息。

然后,在提出相同的问题之前,ChatGPT还被用于制定指南的相同科学研究文章的文本启动。这样做是为了看看ChatGPT在给出用于指南制定的相同数据时是否能够提供更一致的建议。

然后由三位独立的感染性中枢神经系统疾病专家将人工智能生成的应答与ESCMID指南的建议进行比较,以确定其清晰度、与指南的一致性和患者风险。

对大多数关键问题有明确的回答

研究人员发现,总的来说,在20个问题中(有或没有数据输入),ChatGPT对脑脓肿患者管理的回答是明确的,包括证据等级和推荐强度,清晰度评估为80-90%(见编辑注释中的海报链接)。

然而,人工智能模型并没有提供足够明确的答案来指导医生在手术前不使用微生物和预防性抗癫痫治疗的治疗决策(问题2和10)。

数据提示给患者带来更多错误建议和风险

在没有额外数据输入的情况下,ChatGPT对70%(7/10)问题的回答与指南建议非常相似。但是,在扣留微生物、巩固治疗、预防性抗癫痫治疗等3个问题(第2、8、10题)中,AI模型未能给出正确的建议。然而,重要的是,这些错误的回答不会伤害患者(见编辑注释中的海报链接)。

令人惊讶的是,数据输入导致更少的正确答案(40%),包括两个直接与指南相矛盾的建议,这可能会使患者处于危险之中。

关于细菌性脑脓肿抗菌药物治疗持续时间的问题6,ChatGPT在输入数据后回答为“静脉给药约4周,然后口服药物12周”,但ESCMID指南建议“静脉抗菌药物总持续时间为6-8周……”

对于第7个问题,即早期改用口服抗菌素,在数据输入后,ChatGPT建议“在治疗的前14天早期改用口服抗生素……似乎与选定患者的有利结果有关”。然而,亚太经社会准则委员会认为没有足够的证据就这个问题提出建议。

在这两种情况下,听从ChatGPT的建议可能会对患者造成潜在伤害。

数据输入后,ChatGPT的建议较差的事实可能是由于对关键问题6和7提供的少数观察性研究的高估。对于其中一个,甚至指南委员会也无法给出建议,因为证据不足以回答这个问题,”资深作者、德国慕尼黑LMU大学医院的Mattias Klein教授说,他是制定该指南的ESCMID委员会的成员。

“由于ChatGPT的确切操作程序尚不清楚,我们推测,虽然人工智能模型可以快速处理大量数据,但它可能缺乏根据数据的科学质量正确分类和权衡数据的能力。此外,目前尚不清楚ChatGPT的回答使用了哪些数据,因为它没有透露答案的来源,这有可能使用可疑的文献。”

Dyckhoff-Shen博士补充道:“如果遵循ChatGPT在两个关键问题上的建议,患者可能会受到伤害,这是令人担忧的。专家委员会细致入微的专业知识仍然至关重要,特别是在回答复杂的临床问题时。盲目依赖人工智能可能会使患者处于危险之中。”

然而,作者指出,ChatGPT的知识来自2021年9月之前,研究中的问题涵盖了一些极其复杂的医学问题,其中一些问题甚至在专家中也存在争议,而且几乎没有任何可靠的数据可用。然而,即使使用了用于制定ESCMID指南的相同研究文章,ChatGPT的建议与指南的一致性甚至更低。他们建议,随着ChatGPT的演变和进一步发展,应不断审查其质量。

作者进一步解释说,像许多人工智能模型一样,ChatGPT可以访问的信息有一个截止日期。对于目前的版本,它最后一次训练的数据直到2022年1月。Dyckhoff-Shen博士说:“这意味着,虽然它可以根据广泛的信息做出反应,但它无法访问实时数据或在该日期之后发生的事件。”“当我们在2023年8月之前使用ChatGPT进行研究时,它只接受了截至2021年9月的数据训练。因为ChatGPT还没有经过进一步的培训,所以我们当时不可能得到更最新的版本。这也是我们使用第二种方法的原因,即使用ESGIB小组使用的相关科学文章来提示ChatGPT,以便在ESCMID指南中提供建议,以便我们“手动”尝试使其更新。

“在未来,在内部优化过程之后,重新评估ChatGPT的知识将是一件有趣的事情。然而,一旦聊天机器人访问了ESCMID指南本身,它就可以只使用指南中的建议,从而使比较不再有用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号