-
生物通官微
陪你抓住生命科技
跳动的脉搏
科学研究的时候需要一个研究假设?现在可以问AI了
【字体: 大 中 小 】 时间:2024年12月23日 来源:AAAS
编辑推荐:
麻省理工学院的工程师开发了人工智能框架,以产生新的研究假设,从生物启发材料领域开始。
对任何科学家来说,提出一个独特而有前途的研究假设都是一项基本技能。它也可能是耗时的:新的博士候选人可能会花第一年的时间来决定他们的实验到底要探索什么。如果人工智能能帮上忙呢?
麻省理工学院的研究人员创造了一种方法,通过人类与人工智能的合作,自主生成和评估跨领域的有前途的研究假设。在一篇新论文中,他们描述了他们如何使用这个框架来创建证据驱动的假设,这些假设与生物启发材料领域未满足的研究需求相一致。
这项研究今天发表在《先进材料》杂志上,由原子与分子力学实验室(LAMM)的博士后Alireza Ghafarollahi和麻省理工学院土木与环境工程系和机械工程系的Jerry McAfee工程教授、LAMM主任Markus Buehler共同撰写。
研究人员称之为SciAgents的框架由多个人工智能代理组成,每个代理都有特定的能力和对数据的访问,利用“图推理”方法,人工智能模型利用知识图来组织和定义不同科学概念之间的关系。多主体方法模仿生物系统将自己组织为基本构建块的方式。比勒指出,这种“分而治之”的原则在生物学的许多层面上都是一个突出的范例,从物质到昆虫群再到文明——所有这些例子都表明,总体智力远远大于个人能力的总和。
“通过使用多个人工智能代理,我们试图模拟科学家群体做出发现的过程。在麻省理工学院,我们让一群有着不同背景的人一起工作,在咖啡馆或麻省理工学院的无限走廊里偶遇。但这是非常巧合和缓慢的。我们的目标是通过探索人工智能系统是否具有创造力和发现能力来模拟发现的过程。”
将好想法自动化
正如最近的发展所证明的那样,大型语言模型(llm)在回答问题、总结信息和执行简单任务方面表现出了令人印象深刻的能力。但当涉及到从零开始产生新想法时,它们是相当有限的。麻省理工学院的研究人员希望设计一种系统,使人工智能模型能够执行更复杂的多步骤过程,而不仅仅是回忆在训练期间学到的信息,而是推断和创造新知识。
他们的方法的基础是一个本体论知识图,它组织和建立不同科学概念之间的联系。为了制作图表,研究人员将一组科学论文输入到生成式人工智能模型中。在之前的工作中,Buehler使用了一个被称为范畴论的数学领域来帮助人工智能模型将科学概念抽象为图形,植根于定义组件之间的关系,以一种可以被其他模型通过称为图形推理的过程进行分析的方式。这让AI模型专注于开发一种更有原则的方式来理解概念;它还允许它们更好地跨域泛化。
Buehler说:“对于我们来说,创建以科学为中心的人工智能模型非常重要,因为科学理论通常植根于可概括的原则,而不仅仅是知识回忆。”“通过以这种方式将人工智能模型集中在‘思考’上,我们可以超越传统方法,探索人工智能的更多创造性用途。”
在最近的一篇论文中,研究人员使用了大约1000项关于生物材料的科学研究,但比勒说,知识图谱可以使用任何领域的或多或少的研究论文来生成。
随着图表的建立,研究人员开发了一个用于科学发现的人工智能系统,其中有多个模型专门在系统中扮演特定角色。大多数组件都是在OpenAI的ChatGPT-4系列模型的基础上构建的,并使用了一种称为上下文学习的技术,在这种技术中,提示提供有关模型在系统中角色的上下文信息,同时允许它从提供的数据中学习。
框架中的各个代理相互交互,共同解决复杂的问题,这些问题是它们中的任何一个都无法单独完成的。他们被赋予的第一个任务是产生研究假设。从知识图中定义子图后,LLM交互开始,这可以随机发生,也可以通过手动输入论文中讨论的一对关键字来发生。
在这个框架中,一个被研究人员称为“本体论”的语言模型的任务是定义论文中的科学术语,并检查它们之间的联系,充实知识图谱。然后,一个名为“科学家1号”的模型根据其发现意想不到的特性和新颖性的能力等因素制定研究计划。该提案包括对潜在发现的讨论,研究的影响,以及对潜在作用机制的猜测。“科学家2”模型扩展了这个想法,提出了具体的实验和模拟方法,并进行了其他改进。最后,“批评家”模型强调了它的优点和缺点,并提出了进一步改进的建议。
“关键是要建立一个思维方式不同的专家团队。他们必须以不同的方式思考,拥有不同的能力。评论家代理被故意设定为批评其他人,所以你不会让每个人都同意并说这是一个好主意。你有一个经纪人说,‘这里有一个弱点,你能解释得更好吗?’这使得输出结果与单一模型大不相同。”
系统中的其他智能体可以搜索现有文献,这为系统提供了一种方法,不仅可以评估可行性,还可以创建和评估每个想法的新颖性。
使系统更强大
为了验证他们的方法,Buehler和Ghafarollahi基于“丝绸”和“能源密集型”这两个词建立了一个知识图谱。利用这个框架,“科学家1号”模型提出将丝绸与蒲公英色素结合起来,创造出具有增强光学和机械性能的生物材料。该模型预测,这种材料将比传统的丝绸材料坚固得多,并且需要更少的能量来加工。
科学家们随后提出了一些建议,比如使用特定的分子动力学模拟工具来探索所提出的材料如何相互作用,并补充说,这种材料的一个很好的应用将是一种生物灵感粘合剂。然后,批评家模型强调了所提议材料的几个优势和需要改进的领域,例如其可扩展性、长期稳定性以及溶剂使用对环境的影响。为了解决这些问题,评论家建议进行工艺验证的试点研究,并对材料耐久性进行严格的分析。
研究人员还用随机选择的关键词进行了其他实验,这些实验产生了关于更高效的仿生微流控芯片、增强胶原基支架的机械性能以及石墨烯和淀粉样原纤维之间的相互作用以制造生物电子器件的各种原始假设。
该系统能够根据知识图谱的路径提出这些新的、严谨的想法,”Ghafarollahi说。“就新颖性和适用性而言,这些材料似乎既坚固又新颖。在未来的工作中,我们将产生成千上万个新的研究想法,然后我们可以对它们进行分类,试着更好地了解这些材料是如何产生的,以及如何进一步改进它们。”
展望未来,研究人员希望将检索信息和运行模拟的新工具整合到他们的框架中。他们还可以轻松地将框架中的基础模型替换为更高级的模型,从而使系统能够适应人工智能领域的最新创新。
Buehler说:“由于这些代理相互作用的方式,一个模型的改进,即使是微小的,也会对系统的整体行为和输出产生巨大的影响。”
自从发布了包含他们方法的开源细节的预印本以来,已经有数百人联系了研究人员,他们对在不同的科学领域,甚至金融和网络安全等领域使用这些框架感兴趣。
“你不用去实验室就能做很多事情。在这个过程的最后,你基本上想去实验室。实验室费用昂贵,耗时长,所以你想要一个系统能够深入挖掘最好的想法,形成最好的假设,并准确预测突发行为。我们的目标是使其易于使用,这样你就可以使用应用程序引入其他想法或拖动数据集,以真正挑战模型以获得新发现。”
知名企业招聘