-
生物通官微
陪你抓住生命科技
跳动的脉搏
人工智能离人类智能有多近?
【字体: 大 中 小 】 时间:2024年12月06日 来源:nature
编辑推荐:
OpenAI的o1等大型语言模型引发了关于实现人工通用智能(AGI)的争论。但他们不太可能凭一己之力达到这一里程碑。
OpenAI最新的人工智能(AI)系统于9月发布,并做出了大胆的承诺。聊天机器人ChatGPT背后的公司展示了其最新的大型语言模型(llm)套件01,称其具有“新的人工智能能力”。总部位于加州旧金山的OpenAI声称,与之前的LLM相比,o1的工作方式更接近于人类的思维方式。
这项研究的发布为一场已经酝酿了几十年的争论注入了新的动力:机器要多久才能完成人类大脑可以处理的所有认知任务,包括从一个任务概括到另一个任务、抽象推理、规划和选择调查和学习世界的哪些方面?
这种“通用人工智能”(AGI)可以解决棘手的问题,包括气候变化、流行病以及癌症、阿尔茨海默氏症和其他疾病的治疗。但如此巨大的力量也会带来不确定性,并给人类带来风险。加拿大蒙特利尔大学(University of Montreal)深度学习研究员约书亚·本吉奥(Yoshua Bengio)表示:“不好的事情可能是因为人工智能被滥用,也可能是因为我们失去了对它的控制。”
过去几年LLM领域的革命促使人们猜测,AGI可能近在咫尺。但一些研究人员表示,考虑到LLM的培养和培训方式,仅凭他们自己的力量还不足以实现AGI。本吉奥说:“仍然有一些零件不见了。”
很明显,关于人工智能的问题现在比以往任何时候都更加重要。坦佩亚利桑那州立大学的计算机科学家Subbarao Kambhampati说:“在我生命的大部分时间里,我认为谈论AGI的人都是疯子。”“当然,现在每个人都在谈论这件事。你不能说每个人都是疯子。”
2007年左右,人工智能研究人员本·格尔策尔和凯西奥·潘纳钦在一本同名的书中提到了“通用人工智能”一词,从此进入了时代思潮。它的确切含义仍然难以捉摸,但它泛指具有类似人类推理和泛化能力的人工智能系统。抛开模糊的定义不谈,在人工智能的大部分历史中,很明显我们还没有达到AGI。以AlphaGo为例,它是由b谷歌DeepMind开发的围棋人工智能程序。它在游戏中击败了世界上最好的人类玩家——但它的超人特质是有限的,因为它只能做到这一点。
LLM的新能力从根本上改变了这一格局。就像人类的大脑一样,LLM拥有广泛的能力,这使得一些研究人员认真考虑某种形式的AGI可能即将到来,甚至已经存在的想法。
当你考虑到研究人员只是部分了解LLM如何实现这一目标时,这种能力的广度尤其令人吃惊。LLM是一种神经网络,一种受大脑启发的机器学习模型;该网络由人工神经元或计算单元组成,它们分层排列,具有可调参数,表示神经元之间的连接强度。在训练过程中,最强大的llm——比如01、Claude(由旧金山的Anthropic公司开发)和谷歌的Gemini——依赖于一种叫做下一个令牌预测的方法,在这种方法中,一个模型被反复输入文本样本,这些样本被分割成被称为令牌的块。这些标记可以是整个单词,也可以是一组字符。序列中的最后一个标记被隐藏或“屏蔽”,并要求模型预测它。然后,训练算法将预测结果与掩码令牌进行比较,并调整模型的参数,使其能够在下次做出更好的预测。
这个过程还在继续——通常使用数十亿的语言片段、科学文本和编程代码——直到模型能够可靠地预测出被屏蔽的符号。在此阶段,模型参数已经捕获了训练数据的统计结构,以及其中所包含的知识。然后固定参数,当给定新的查询或不一定存在于其训练数据中的“提示”时,模型使用它们来预测新的令牌,这一过程称为推理。
一种被称为变压器的神经网络架构的使用使llm大大超越了以前的成就。转换器允许模型了解某些令牌对其他令牌有特别强的影响,即使它们在文本样本中相隔很远。这使得LLM能够以模仿人类的方式解析语言——例如,在这句话中区分“银行”一词的两种含义:“当河岸被洪水淹没时,水破坏了银行的自动取款机,使得取款变得不可能。”
事实证明,这种方法在广泛的环境中非常成功,包括生成计算机程序来解决用自然语言描述的问题,总结学术文章和回答数学问题。
在此过程中,其他新功能也出现了,尤其是随着LLM规模的扩大,如果LLM规模足够大,AGI也有可能出现。一个例子是思维链(CoT)提示。这包括向LLM展示如何将问题分解为更小的步骤来解决问题的示例,或者只是要求LLM一步一步地解决问题。即时提示可以让LLM正确回答之前让他们困惑的问题。但这个过程对小型LLM来说并不适用。
根据OpenAI的说法,CoT提示已经被整合到01的工作中,这是该模型强大的基础。弗朗索瓦·乔莱特(Francois Chollet)曾是加州山景城b谷歌的人工智能研究员,去年11月离开b谷歌创办了一家新公司。他认为,该模型包含了一个CoT生成器,可以为用户查询创建大量CoT提示,以及一个从选项中选择最佳提示的机制。在训练期间,01不仅要预测下一个标记,还要为给定查询选择最佳的CoT提示。根据OpenAI的说法,CoT推理的加入解释了为什么01 -preview——01的高级版本——在国际数学奥林匹克竞赛资格考试中正确解决了83%的问题。国际数学奥林匹克竞赛是一项著名的高中生数学竞赛。相比之下,该公司之前最强大的LLMgpt - 40的得分仅为13%。
但是,Kambhampati和Chollet表示,尽管如此复杂,01也有其局限性,并不构成AGI。例如,在需要计划的任务上,Kambhampati的团队表明,尽管01在需要多达16个计划步骤的任务上表现出色,但当步骤增加到20到402步时,它的性能会迅速下降。Chollet也看到了类似的局限性,他设计了一个抽象推理和泛化测试来挑战01 -preview,以衡量AGI的进展。测试采用视觉拼图的形式。解决这些问题需要通过例子推断出一个抽象的规则,并用它来解决类似谜题的新实例,这是人类相对容易做到的。
乔莱特表示,LLM无论规模大小,解决问题的能力都是有限的,这些问题需要将所学知识重新组合起来,以应对新任务。“LLM不能真正适应新鲜事物,因为他们没有能力把自己的知识,然后在飞行中对这些知识进行相当复杂的重组,以适应新的环境。”
那么,LLM会实现AGI吗?它们的优点之一是,底层的转换器体系结构可以处理和查找除文本之外的其他类型的信息(如图像和音频)中的统计模式,只要有一种适当地标记这些数据的方法。在纽约大学研究机器学习的安德鲁·威尔逊(Andrew Wilson)和他的同事指出,这可能是因为不同类型的数据都有一个共同的特征:这些数据集具有较低的“柯尔莫戈洛夫复杂度”(Kolmogorov complexity),即创建这些数据集所需的最短计算机程序的长度。研究人员还表明,变形器非常适合学习低柯尔莫哥洛夫复杂度的数据模式,而且这种适用性随着模型的大小而增加。变形金刚有能力模拟广泛的可能性,增加了训练算法发现问题的适当解决方案的机会,这种“表现力”随着规模的增加而增加。威尔逊说,这些是“我们真正需要的普遍学习的一些要素”。尽管Wilson认为AGI目前还遥不可及,但他表示,LLM和其他使用变压器架构的人工智能系统具有类似AGI行为的一些关键属性。
然而,也有迹象表明,基于变压器的LLM有其局限性。首先,用于训练模型的数据即将耗尽。旧金山一家研究人工智能趋势的机构Epoch AI的研究人员估计,现有用于训练的公开文本数据可能会在2026年至2032年之间耗尽。也有迹象表明,LLM在规模扩大的过程中获得的收益不如以前那么大,尽管目前尚不清楚这是否与数据的新颖性降低有关,因为现在使用的数据太多了,还是其他原因。后者对LLM来说是个坏兆头。
谷歌DeepMind驻伦敦的研究副总裁拉亚?哈德塞尔(Raia Hadsell)提出了另一个问题。强大的基于转换器的LLM被训练来预测下一个代币,但她认为,这种单一的关注点对于实现AGI来说太有限了。她说,构建一次性或大量生成解决方案的模型,可能会让我们更接近AGI。可以帮助建立这种模型的算法已经在一些现有的非llm系统中发挥作用,比如OpenAI的DALL-E,它可以根据自然语言的描述生成逼真的,有时是虚幻的图像。但他们缺乏LLM的广泛能力。
神经科学家直觉地认为,实现AGI需要哪些突破。他们认为,我们的智力是大脑能够建立一个“世界模型”的结果,这是我们周围环境的一个代表。这可以用来想象不同的行动方案并预测其后果,从而进行计划和推理。它还可以通过模拟不同的场景,将在一个领域学到的技能推广到新的任务中。
一些报告声称有证据表明llm内部出现了基本的世界模型。在一项研究中,剑桥麻省理工学院的研究人员Wes Gurnee和Max Tegmark声称,一个被广泛使用的开源LLM家族在接受包含这些地方信息的数据集训练后,开发了世界、美国和纽约市的内部表征,尽管其他研究人员在X(以前的Twitter)上指出,没有证据表明LLM使用世界模型进行模拟或学习因果关系。在另一项研究中,剑桥哈佛大学的计算机科学家肯尼斯·李和他的同事们报告了证据,证明一个小型LLM通过对棋盘游戏“奥赛罗”的棋手的走法记录进行训练,学会了在内心表达棋盘的状态,并以此来正确预测下一步的合法走法。
然而,其他结果表明,当今人工智能系统学习的世界模型可能不可靠。在一项这样的研究中,哈佛大学的计算机科学家Keyon Vafa和他的同事们利用纽约市乘坐出租车时的巨大转弯数据集来训练一个基于变压器的模型来预测一个序列中的下一个转弯,它几乎达到了100%的准确率。
通过检查模型生成的转弯,研究人员能够证明它已经构建了一个内部地图来得出答案。但这张地图与曼哈顿几乎没有相似之处(参见“人工智能的不可能街道”),“包含了不可能的物理方向和其他街道之上的立交桥”,作者写道。Vafa说:“虽然这个模型在一些导航任务中做得很好,但它在不连贯的地图上做得很好。”当研究人员调整测试数据以包括训练数据中不存在的不可预见的弯路时,它无法预测下一个转弯,这表明它无法适应新情况。
加州山景城b谷歌DeepMind人工智能研究团队成员迪利普?乔治(Dileep George)表示,当今LLM缺乏的一个重要特征是内部反馈。人类的大脑充满了反馈连接,这些连接允许信息在神经元层之间双向流动。这使得信息从感觉系统流向大脑的更高层,从而创建反映我们环境的世界模型。这也意味着来自世界模型的信息可以向下涟漪,引导进一步感官信息的获取。例如,这种双向过程导致感知,其中大脑使用世界模型来推断感官输入的可能原因。它们还可以通过世界模型来模拟不同的行动方案,从而实现规划。
但目前的LLM只能以一种附加的方式使用反馈。在01的情况下,内部CoT提示似乎在起作用——在生成提示以帮助回答查询并在LLM产生最终答案之前反馈给它——是一种反馈连接形式。但是,从Chollet对01的测试中可以看出,这并不能确保无孔不入的抽象推理。
包括Kambhampati在内的研究人员也尝试在llm中添加称为验证器的外部模块。这些检查由LLM在特定上下文中生成的答案(例如创建可行的旅行计划),如果答案不准确,则要求LLM重新运行查询8。Kambhampati的团队表明,在外部验证者的帮助下,llm能够比普通llm更好地制定旅行计划。问题在于,研究人员必须为每项任务设计定制的验证器。“没有通用的验证者,”Kambhampati说。相比之下,使用这种方法的AGI系统可能需要建立自己的验证器来适应出现的情况,就像人类可以使用抽象规则来确保他们正确推理一样,即使是对于新任务。
利用这些想法来帮助生产新的人工智能系统的努力还处于起步阶段。例如,Bengio正在探索如何创建与当今基于变压器的LLM不同架构的人工智能系统。其中一种是使用他所谓的生成流网络,它将允许单个人工智能系统学习如何同时构建世界模型以及使用它们进行推理和规划所需的模块。
LLM遇到的另一个大障碍是他们是数据消耗者。伦敦大学学院(University College London)的理论神经科学家卡尔?弗里斯顿(Karl Friston)建议,未来的系统可以通过赋予它们决定从环境中采样多少数据来构建世界模型并做出合理预测的能力,而不是简单地摄取它们所提供的所有数据,从而提高效率。弗里斯顿说,这将代表一种代理或自治形式,这可能是AGI所需要的。他说:“在大型语言模型或生成式人工智能中,你看不到那种真正的代理。他补充说:“如果你有任何一种可以在某种程度上进行选择的智能人工制品,我认为你正在向AGI迈出重要的一步。”
具有构建有效世界模型和集成反馈循环能力的AI系统也可能较少依赖外部数据,因为它们可以通过运行内部模拟、假设反事实并使用这些来理解、推理和计划来生成自己的数据。事实上,在2018年,当时在东京谷歌Brain工作的研究人员David Ha和瑞士卢加诺-维加内洛Dalle Molle人工智能研究所的j
如果你认为具有这种自治程度的人工智能系统听起来很可怕,那么你并不孤单。除了研究如何构建AGI之外,Bengio还倡导将安全性纳入人工智能系统的设计和监管中。他认为,研究必须把重点放在训练那些能够保证自身行为安全的模型上——例如,通过建立一些机制来计算模型违反某些特定安全约束的概率,并在概率过高时拒绝采取行动。此外,政府需要确保安全使用。他说:“我们需要一个民主程序,确保个人、企业、甚至军队以对公众安全的方式使用和开发人工智能。”
那么,人工智能有可能实现吗?计算机科学家表示,没有理由不这么认为。“没有理论上的障碍,”乔治说。新墨西哥州圣达菲研究所(Santa Fe Institute)的计算机科学家梅勒妮·米切尔(Melanie Mitchell)对此表示赞同。她说:“人类和其他一些动物是一个原则的证明,你可以到达那里。”“我不认为生物系统与其他材料制成的系统有什么特别之处,原则上会阻止非生物系统变得智能。”
但是,即使有可能,对于它的到来有多近也没有达成共识:估计的范围从现在的几年到至少十年。乔治说,如果人工智能系统被创造出来,我们看到它的时候就会知道。乔莱特怀疑它会悄悄靠近我们。“当AGI到来时,它不会像你想象的那样引人注目或具有开创性,”他说。“人工智能需要时间才能充分发挥其潜力。它将首先被发明出来。然后,在它开始真正改变世界之前,你需要扩大规模并应用它。”
知名企业招聘