几乎所有领先的人工智能聊天机器人都显示出认知能力下降的迹象

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2024年12月23日 来源：AAAS

编辑推荐：

　　《英国医学杂志》圣诞版的一项研究发现，几乎所有领先的大型语言模型或“聊天机器人”在广泛用于发现痴呆症早期迹象的测试中都显示出轻度认知障碍的迹象。

《英国医学杂志》圣诞版的一项研究发现，几乎所有领先的大型语言模型或“聊天机器人”在广泛用于发现痴呆症早期迹象的测试中都显示出轻度认知障碍的迹象。

研究结果还表明，“老”版本的聊天机器人，比如老年患者，在测试中的表现往往更差。作者表示，这些发现“挑战了人工智能将很快取代人类医生的假设”。

人工智能领域的巨大进步引发了一阵兴奋和恐惧的猜测，即聊天机器人是否能超越人类医生。

几项研究表明，大型语言模型（llm）在一系列医学诊断任务中表现得非常娴熟，但它们对认知能力下降等人类缺陷的易感性尚未得到检验。

为了填补这一知识空白，研究人员使用蒙特利尔认知评估（MoCA）测试评估了领先的、公开可用的法学硕士的认知能力——ChatGPT版本4和40（由OpenAI开发）、Claude 3.5“十四行诗”（由Anthropic开发）和Gemini版本1和1.5（由Alphabet开发）。

MoCA测试被广泛用于检测认知障碍和痴呆症的早期症状，通常在老年人中。通过一些简短的任务和问题，它可以评估包括注意力、记忆力、语言、视觉空间技能和执行功能在内的能力。最高分数为30分，26分或以上通常被认为是正常的。

给llm的每项任务的指示与给人类患者的指示相同。评分遵循官方指南，并由执业神经科医生进行评估。

ChatGPT 40在MoCA测试中得分最高（30分满分26分），其次是ChatGPT 4和Claude（30分满分25分），而Gemini 1.0得分最低（30分满分16分）。

所有聊天机器人在视觉空间技能和执行任务方面的表现都很差，比如造径任务（将圈起来的数字和字母按升序连接起来）和绘制时钟测试（绘制显示特定时间的钟面）。双子座模型在延迟回忆任务（记住五个单词序列）中失败。

大多数其他任务，包括命名、注意力、语言和抽象，所有聊天机器人都能很好地完成。

但在进一步的视觉空间测试中，聊天机器人无法表现出同理心，也无法准确解读复杂的视觉场景。只有ChatGPT 40在Stroop测试的不一致阶段成功，该测试使用颜色名称和字体颜色的组合来测量干扰如何影响反应时间。

这些都是观察性发现，作者承认人类大脑和大型语言模型之间存在本质差异。

然而，他们指出，在需要视觉抽象和执行功能的任务中，所有大型语言模型的统一失败突出了一个重要的弱点，这可能会阻碍它们在临床环境中的使用。

因此，他们得出结论：“不仅神经学家不太可能在短期内被大型语言模型所取代，而且我们的研究结果表明，他们可能很快就会发现自己在治疗新的虚拟病人——患有认知障碍的人工智能模型。”

热点排行

联系信箱：

粤ICP备09063491号