人工智能揭示了大脑如何处理语言

【字体: 时间:2021年10月27日 来源:MIT麻省理工

编辑推荐:

  神经科学家发现下一个单词预测模型的内部工作原理类似于大脑中的语言处理中心。

  

在过去的几年里,人工智能语言模型在某些任务上变得非常出色。最值得注意的是,它们擅长预测一串文本中的下一个单词;这项技术可以帮助搜索引擎和短信应用预测你要输入的下一个单词。

最新一代的预测语言模型似乎也学习了一些关于语言潜在含义的东西。这些模型不仅可以预测下一个单词,还可以执行一些似乎需要一定程度的真正理解的任务,如回答问题、文档总结和故事完成。

这些模型旨在优化预测文本的特定功能,而不是试图模仿人类大脑如何执行这项任务或理解语言。但麻省理工学院神经科学家的一项新研究表明,这些模型的潜在功能类似于人类大脑中的语言处理中心的功能。

在其他类型的语言任务中表现良好的计算机模型并没有显示出与人类大脑的这种相似性,这提供了证据,表明人类大脑可能会使用下一个词的预测来驱动语言处理。

“更好的模型是预测下一个单词,更适合人类的大脑,”南希?坎维舍表示,沃尔特·a . Rosenblith认知神经科学教授,麻省理工学院的一个成员麦戈文脑研究所和中心的大脑,思想,和机器(CBMM),这项新研究的作者之一。“令人惊讶的是,这些模型吻合得如此之好,这非常间接地表明,也许人类语言系统正在做的就是预测接下来会发生什么。”

Joshua Tenenbaum,麻省理工学院计算认知科学教授,CBMM和麻省理工学院人工智能实验室(CSAIL)成员;以及麦戈文研究所(McGovern Institute)成员、弗雷德里克·a·米德尔顿(Frederick a . and Carole J. Middleton)神经科学职业发展副教授伊芙琳娜·费多伦科(Evelina Fedorenko),是本周发表在《美国国家科学院院刊》(Proceedings of the National Academy of Sciences)上的这项研究的资深作者。在CBMM工作的麻省理工学院研究生Martin Schrimpf是这篇论文的第一作者。

做预测

这种新的、高性能的下一个词预测模型属于一类称为深度神经网络的模型。这些网络包含计算“节点”,它们形成不同强度的连接,以及以规定的方式在彼此之间传递信息的层。

在过去的十年里,科学家们利用深度神经网络创建了视觉模型,可以像灵长类大脑一样识别物体。麻省理工学院(MIT)的研究也表明,视觉物体识别模型的潜在功能与灵长类视觉皮层的组织相匹配,尽管这些计算机模型并不是专门设计来模仿大脑的。

在这项新研究中,麻省理工学院的研究小组使用了类似的方法,将人脑中的语言处理中心与语言处理模型进行了比较。研究人员分析了43种不同的语言模型,包括几个为预测下一个单词而优化的模型。其中包括一个名为GPT-3(生成式预训练Transformer 3)的模型,在给定提示的情况下,它可以生成与人类生成类似的文本。其他的模型被设计用来执行不同的语言任务,比如在句子中填空。

当给每个模型呈现一串单词时,研究人员测量了组成网络的节点的活动。然后,他们将这些模式与人类大脑的活动进行了比较,并对执行三种语言任务的受试者进行了测量:听故事、一次读一个句子,以及每次读一个单词的句子。这些人体数据集包括功能性磁共振成像(fMRI)数据和接受癫痫脑手术患者的颅内电皮质测量数据。

他们发现,表现最好的下一个词预测模型的活动模式与人类大脑中看到的非常相似。这些模型中的活动也与人类行为测量高度相关,比如人们阅读文本的速度。

“我们发现,预测神经反应的模型往往也能最好地预测人类的行为反应,比如阅读时间。这两种情况都可以用模型在下一词预测中的表现来解释。这个三角形真的把一切都联系在了一起。

“这项研究的一个关键结论是,语言处理是一个高度受限的问题:正如这篇论文所显示的,人工智能工程师创造的最佳解决方案最终与创造人类大脑的进化过程找到的解决方案相似。自人工智能网络没有直接寻求模仿大脑——但最终寻找类人脑——这表明,在某种意义上,一种趋同进化的人工智能和自然之间发生,”Daniel yamin说的心理学助理教授和斯坦福大学计算机科学,他并没有参与这项研究。

改变游戏规则

预测模型(如GPT-3)的关键计算特性之一是一个称为正向单向预测变压器的元素。这种变形金刚能够根据之前的序列预测接下来会发生什么。这个转换器的一个重要特性是,它可以基于非常长的前面上下文(数百个单词),而不仅仅是最后几个单词进行预测。

特南鲍姆说,科学家还没有发现任何与这种处理方式相对应的大脑回路或学习机制。然而,他说,新的发现与先前提出的假设是一致的,即预测是语言处理的关键功能之一。

他说:“语言处理的一个挑战是它的实时方面。”“语言进来了,你必须跟上它,并能够实时理解它。”

研究人员现在计划建立这些语言处理模型的变体,看看它们的结构的微小变化会如何影响它们的表现和适应人类神经数据的能力。

“对我来说,这个结果改变了游戏规则,”费多伦科说。“这完全改变了我的研究项目,因为我没有预料到,在我的有生之年,我们会得到这些明确的计算模型,捕捉到足够多的关于大脑的信息,这样我们就可以利用它们来了解大脑是如何工作的。”

研究人员还计划尝试将这些高性能语言模型与特南鲍姆实验室之前开发的一些计算机模型结合起来,这些计算机模型可以执行其他类型的任务,比如构建对物理世界的感知表征。

特南鲍姆说:“如果我们能够理解这些语言模型的作用,以及它们如何与那些更像是感知和思考的模型相联系,那么就可以为我们提供关于大脑如何工作的更完整的模型。”“这可能会让我们建立更好的人工智能模型,并为我们提供更好的模型,以了解更多的大脑是如何工作的,以及一般智能是如何出现的,比我们过去所拥有的更好。”


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号