-
生物通官微
陪你抓住生命科技
跳动的脉搏
医学研究中的AI之战:ChatGPT输给Elicit !日本学者分析AI采集文献之弊 慎用人工智能
【字体: 大 中 小 】 时间:2023年12月09日 来源:AAAS
编辑推荐:
以大阪城市大学为中心的研究小组将生成人工智能作为医疗领域的信息收集工具进行了研究。结果ChatGPT建议的参考文献大多是虚构的,而Elicit参考文献的准确性与研究人员相同但有遗漏。提示人工智能仍处于起步阶段,并非一定可靠,建议根据需要的信息类型使用不同的生成式人工智能。
写论文需要繁重而耗时的学术研究采集。大热的人工智能能把我们从繁重而耗时的学术研究收集工作中拯救出来吗?
一个国际研究小组调查了在医疗领域作为信息收集工具的生成人工智能的可信度和效率。由大阪城市大学医学研究生院的Masaru Enomoto教授领导的研究小组向两个生成式人工智能提供了相同的临床问题和文献选择标准;聊天和引出。结果表明,ChatGPT建议中有很多虚构的文章,但Elicit的效率很高,在几分钟内建议了多个参考文献,准确度与研究人员相同。
“这项研究是基于我们长期管理大量医学文献的经验。利用生成式人工智能获取信息仍处于起步阶段,因此我们需要谨慎行事,因为目前的信息并不准确或最新。”Enomoto博士说。“然而,ChatGPT和其他生成式人工智能正在不断发展,有望在未来给医学研究领域带来革命性的变化。”
他们的文章发表在《肝病通讯》上。
内容大致如下,值得参考:
人工智能(AI)中大型语言模型的增长是引人注目的,OpenAI的生ChatGPT 4就是一个例子,它可能有助于对不断扩大的医学文献进行系统审查。事实上,专业协会的指导方针通常是基于这些数据,但它们是劳动密集型的。
在2020年的《柳叶刀》胃肠病学和肝脏病学杂志上,我们发表了一项关于富马酸替诺福韦二氧吡酯(TDF)与恩替卡韦治疗慢性乙型肝炎的HCC发病率的荟萃分析。我们花了数百小时筛选了5000多项研究,以确定31项研究符合进一步数据提取和合成的条件(简言之,2006年1月至2020年4月发表的研究,其中包括TDF治疗或恩替卡韦治疗的患者发生HCC的时间到事件数据)。
模拟本研究的文献检索,我们要求ChatGPT 4“请查找有关接受TDF或恩替卡韦的慢性乙型肝炎患者发生HCC事件的时间数据的相关研究,以了解TDF和恩替卡韦与慢性乙型肝炎患者HCC风险的关联是否不同。”ChatGPT 4列出了实际并不存在的论文标题、作者、期刊名称,甚至PMIDs 。接下来,我们向另一人工智能生成的研究助理“Elicit”提出了同样的问题。在我们多次点击“show more”后,在10分钟内,Elicit显示了70篇论文,其中48篇是在研究期间发表的,22篇是在研究期间发表的。在研究期间发表的48篇论文中,有11篇与传统检索重叠,37篇是新发现的(supplementary Figure, https://links.lww.com/HC9/A699)。换句话说,在传统的搜索中,Elicit漏掉了20个,而获得了37个。在20篇遗漏的论文中,5篇是会议摘要,8篇是在2018年之前发表的,并且只包括恩替卡韦患者,没有比较组。因此,虽然meta分析中有50,027/119,053例(42.0%)患者在Elicit检索中被遗漏,但在9个比较研究中只有1例(596例)患者被遗漏在“获得”的37篇额外论文中,只有1篇是原创研究文章(303名患者),符合我们的研究标准。
综上所述,尽管目前的平台存在错误和缺失率,但使用人工智能进行系统文献搜索似乎非常有前景,在提高搜索质量的同时减少了数小时的人力劳动。随着人工智能技术的不断发展,应该继续努力完善和改进基于人工智能的文献检索平台。