NIH研究结果揭示了将人工智能纳入医疗决策的风险和好处

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2024年07月25日 来源：AAAS

编辑推荐：

　　美国国立卫生研究院(NIH)的研究人员发现，一种人工智能(AI)模型以很高的准确率解决了医学测验问题——旨在测试卫生专业人员根据临床图像和简短文本摘要诊断患者的能力。然而，医生评分发现，人工智能模型在描述图像和解释其决策如何导致正确答案时犯了错误。这一发现揭示了人工智能在临床环境中的潜力，发表在《数字医学》杂志上。这项研究是由美国国立卫生研究院国家医学图书馆(NLM)和纽约市威尔康奈尔医学院的研究人员领导的。

美国国立卫生研究院(NIH)的研究人员发现，一种人工智能(AI)模型以很高的准确率解决了医学测验问题——旨在测试卫生专业人员根据临床图像和简短文本摘要诊断患者的能力。然而，医生评分发现，人工智能模型在描述图像和解释其决策如何导致正确答案时犯了错误。这一发现揭示了人工智能在临床环境中的潜力，发表在《npj数字医学》上。这项研究是由美国国立卫生研究院国家医学图书馆(NLM)和纽约市威尔康奈尔医学院的研究人员领导的。

NLM代理主任Stephen Sherry博士说:“将人工智能整合到医疗保健中，作为一种帮助医疗专业人员更快地诊断患者、让他们更快地开始治疗的工具，前景广阔。然而，正如这项研究所表明的那样，人工智能还不够先进，无法取代对准确诊断至关重要的人类经验。”

人工智能模型和人类医生回答了新英格兰医学杂志(NEJM)“图像挑战”的问题。这个挑战是一个在线测试，提供真实的临床图像和一个简短的文本描述，包括病人的症状和表现的细节，然后要求用户从多项选择答案中选择正确的诊断。

研究人员要求人工智能模型回答207个图像挑战问题，并为每个答案提供书面理由。该提示规定，基本原理应包括对图像的描述、相关医学知识的总结，并为模型如何选择答案提供逐步的推理。

从不同的机构招募了9名医生，每个医生都有不同的医学专业，他们首先在“闭卷”环境中回答他们分配的问题(不参考任何外部材料，如在线资源)，然后在“开卷”环境中回答(使用外部资源)。然后，研究人员向医生提供了正确的答案，以及人工智能模型的答案和相应的原理。最后，医生被要求对人工智能模型描述图像、总结相关医学知识并提供逐步推理的能力进行评分。

研究人员发现，人工智能模型和医生在选择正确诊断方面得分很高。有趣的是，人工智能模型比封闭书本环境下的医生更经常地选择正确的诊断，而使用开放书本工具的医生表现得比人工智能模型更好，尤其是在回答最难的问题时。

重要的是，基于医生的评估，人工智能模型在描述医学图像和解释诊断背后的原因时经常犯错误，即使在它做出正确选择的情况下也是如此。在一个例子中，向人工智能模型提供了一张有两个病变的患者手臂的照片。医生很容易就能认出这两种损伤是由同一种情况引起的。然而，由于病变呈现的角度不同，导致不同颜色和形状的错觉，AI模型无法识别这两个病变可能与同一诊断有关。

研究人员认为，这些发现支持了在将多模式人工智能技术引入临床环境之前进一步评估其重要性。

“这项技术有可能帮助临床医生通过数据驱动的见解来增强他们的能力，从而改善临床决策，”NLM高级研究员和该研究的通讯作者，陆志勇博士说，“了解这项技术的风险和局限性对于利用其在医学上的潜力至关重要。”

该研究使用了一种名为GPT-4V(生成预训练变压器4与视觉)的人工智能模型，这是一种“多模式人工智能模型”，可以处理多种类型数据的组合，包括文本和图像。研究人员指出，虽然这是一项小型研究，但它揭示了多模式人工智能在帮助医生做出医疗决策方面的潜力。需要更多的研究来了解这些模型与医生诊断病人的能力相比如何。

该研究由美国国立卫生研究院国家眼科研究所和美国国立卫生研究院临床中心的合作者共同撰写;匹兹堡大学;达拉斯德州大学西南医学中心;纽约大学格罗斯曼医学院，纽约市;哈佛医学院和马萨诸塞州总医院，波士顿;凯斯西储大学医学院，克利夫兰;加州大学圣地亚哥分校，拉霍亚;以及位于小石城的阿肯色大学。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号