-
生物通官微
陪你抓住生命科技
跳动的脉搏
研究人员在人工智能驱动的蛋白质设计方面取得了新的突破
【字体: 大 中 小 】 时间:2024年11月08日 来源:AAAS
编辑推荐:
一个由阿贡国家实验室领导的团队开发了一个人工智能驱动的多模式框架,该框架结合了实验数据和基于文本的叙述,以加速新蛋白质的设计。作为戈登贝尔奖的决赛选手,这项工作使用了五台顶级超级计算机,包括阿贡国家实验室的极光百亿亿次系统。
利用人工智能(AI)和世界上最快的超级计算机的力量,由美国能源部(DOE)阿贡国家实验室领导的一个研究小组开发了一种创新的计算框架,以加快新蛋白质的设计。
今年的诺贝尔化学奖表彰了计算蛋白质设计的进步,阿贡国家实验室的人工智能驱动方法被选为著名的戈登贝尔奖的决赛选手。该奖项由美国计算机协会(Association of Computing Machinery)颁发,每年颁发一次,旨在表彰在使用高性能计算解决复杂科学问题方面取得的突破。
“证明这种方法在极端尺度上提供了强有力的科学结果,是构建更强大的人工智能模型的重要一步。它还使我们离自主发现更近了一步,人工智能不仅可以帮助简化实验,还可以帮助简化整个科学过程。”Arvind Ramanathan说。
该团队的MProt-DPO框架的关键创新之一是其集成不同类型数据流或“多模式数据”的能力。它将传统的蛋白质序列数据与实验结果、分子模拟甚至基于文本的叙述结合起来,提供了对每种蛋白质特性的详细见解。这种方法有可能加速广泛应用的蛋白质发现。
Argonne计算生物学家Arvind Ramanathan说:“假设你想制造一种新的疫苗,或者设计一种酶,可以以一种环保的方式分解塑料进行回收。”“我们的人工智能框架可以帮助研究人员从无数可能性中寻找有希望的蛋白质,包括自然界中可能不存在的候选蛋白质。”
在巨大的蛋白质设计空间中导航
将蛋白质的氨基酸序列映射到其结构和功能是一个长期存在的研究挑战。氨基酸(蛋白质的组成部分)的每一种独特排列都能产生不同的性质和行为。潜在变化的数量之多,使得仅仅通过实验来测试它们是不切实际的。
从这个角度来看,仅仅修改20个序列中的3个氨基酸就会产生8000种可能的组合。但大多数蛋白质要复杂得多,一些研究目标含有数百到数千个氨基酸。
“例如,如果我们改变一个含有300个氨基酸的蛋白质中77个氨基酸的位置,我们就会看到一个Googol或10100种独特可能性的设计空间,”阿贡国家实验室计算科学家、介绍该框架的论文的第一作者Gautham Dharuman说。“这就是为什么我们需要大型语言模型和超级计算机来帮助我们在合理的时间内探索这个广阔的空间。”
大型语言模型(llm)是ChatGPT等聊天机器人的基础,它是经过大量数据训练的人工智能模型,可以检测模式并生成新信息。在科学领域,法学硕士帮助研究人员筛选大量数据集,为蛋白质设计等复杂问题提供见解和预测。
利用人工智能和百亿亿次计算能力
构建和培训框架的法学硕士需要使用强大的超级计算机,包括阿贡领导计算设施(ALCF)的极光百亿亿级系统。ALCF是美国能源部科学办公室的用户设施。
ALCF的人工智能和机器学习团队负责人Venkat Vishwanath表示:“我们训练的语言模型大约有几十亿个参数。”“超级计算机不仅对训练和微调模型至关重要,而且对运行端到端工作流程也至关重要。这包括进行大规模模拟,以验证生成的蛋白质序列的稳定性和催化活性。”
除了Aurora,该团队还在其他顶级系统上部署了他们的框架:美国能源部橡树岭国家实验室的Frontier,瑞士国家超级计算中心的Alps,意大利CINECA中心的Leonardo以及NVIDIA的PDX机器。他们在每台机器上实现了超过1 exaflops的持续性能(混合精度),Aurora上的峰值性能为5.57 exaflops。阿贡国家实验室的系统最近在人工智能性能测试中排名第一,在hp - mxp基准测试中达到每秒10.6百亿亿次浮点运算。
超过exaflop,也就是每秒计算1万亿次,凸显了这项工作所需的巨大计算能力。
Vishwanath说:“通过调整我们的工作流程,使其能够在跨越不同架构的多台顶级超级计算机上运行,我们展示了该框架的可移植性和可扩展性。”“这很重要,因为它表明,无论机器或地点如何,研究人员都可以使用我们的工具。”
从首选结果中学习
MProt-DPO中的DPO代表直接偏好优化。DPO算法通过从首选或非首选结果中学习来帮助人工智能模型改进。通过将DPO应用于蛋白质设计,Argonne团队使他们的框架能够从实验反馈和模拟中学习。
“如果你想想ChatGPT是如何工作的,人类会对一个回答是否有用提供反馈。这些输入被循环回训练算法,以帮助模型了解你的偏好,”拉马纳坦说。“mpro - dpo以类似的方式工作,但我们用实验和模拟数据取代了人类的反馈,以帮助人工智能模型了解哪种蛋白质设计最成功。”
虽然像法学硕士这样的生成式人工智能技术已经为生物系统开发出来,但现有的工具由于无法整合多模态数据而受到限制。然而,MProt-DPO包括实验数据和基于文本的叙述,为每种蛋白质的行为提供了额外的背景。这种方法建立在Ramanathan及其同事早期的工作基础上,他们创建了一个文本指导的蛋白质设计框架。
“我们的动机是创建一个框架,可以使用法学硕士和端到端工作流程来生成具有特定特性的蛋白质序列,如适应性或催化活性,”Dharuman说。DPO然后使用这些测量作为反馈来调整llm,使他们能够在随后的迭代中产生更多首选结果。我们使用超级计算机来证明,通过在设计过程中结合这种反馈,我们可以大大缩短解决方案的时间。”
Ramanathan指出,使用实验数据也有助于提高他们的人工智能模型的可信度。
他说:“将经过验证的结果引入设计循环有助于防止模型产生疯狂或不切实际的幻觉。”“这导致了更可靠的蛋白质设计。”
该团队在两项任务中测试了MProt-DPO,以证明其处理复杂蛋白质设计挑战的能力。首先,他们把重点放在酵母蛋白HIS7上,利用实验数据来提高各种突变的性能。第二项任务是研究苹果酸脱氢酶,这种酶在细胞产生能量的过程中起着关键作用。利用模拟数据,他们优化了酶的设计,以提高其催化效率。
该团队正在与阿贡国家实验室的生物学家合作,在实验室中验证人工智能生成的设计,初步测试表明它们的性能符合预期。
为AuroraGPT和自主发现铺平了道路
MProt-DPO的创建也有助于推进阿贡国家实验室在科学和自主发现方面更广泛的人工智能计划。该工具对多模态数据的使用是AuroraGPT正在进行的开发工作的核心,AuroraGPT是一个基础模型,旨在帮助跨学科的自主科学探索。
Ramanathan说:“证明这种方法在极端尺度上提供了强有力的科学结果,是朝着建立更强大的人工智能模型迈出的重要一步。”“这也使我们离自主发现更近了一步,人工智能不仅可以帮助简化实验,还可以帮助简化整个科学过程。”
该团队的研究得到了美国能源部科学办公室高级科学计算研究计划和国立卫生研究院的支持。
知名企业招聘