世界上最快的超级计算机的一天

【字体: 时间:2024年09月05日 来源:nature

编辑推荐:

  在田纳西州东部的山丘上,一台名为“Frontier”超级计算机为科学家们提供了前所未有的机会来研究从原子到星系的一切。

  

橡树岭,田纳西州

世界上最快的超级计算机是一台名为Frontier的机器,但即使是这台拥有近5万个处理器的超级计算机也有其局限性。为了能满足世界各地科学团体要求的工作量,它的用电量飙升。

Frontier所在的田纳西州橡树岭国家实验室(Oak Ridge National Laboratory)的科学主任Bronson Messer说,电力需求峰值约为27兆瓦,足以为大约1万户家庭供电。用一个当地术语来形容这台超级计算机的工作速度:“他们像一只烫伤的狗一样运行着这台机器。”

Frontier以创纪录的速度处理数据,速度超过了同时工作的10万台笔记本电脑。当它在2022年首次亮相时,它是第一个突破超级计算的百亿亿次速度障碍——每秒执行一次百亿亿次浮点运算,即每秒1018次浮点运算的能力。几十年来,全球都在推动更大型超级计算机的发展,橡树岭的巨型计算机是最新的榜单冠军——尽管在军事实验室或其他秘密设施中可能存在更快的计算机。

速度和规模都是次要的,Frontier的主要目的是推动人类知识的界限。Frontier擅长建模,用小尺度细节表现大尺度模式,比如微小的云滴如何影响地球气候变暖的速度。研究人员正在使用超级计算机创建从亚原子粒子到星系的一切尖端模型。一些项目正在模拟蛋白质以帮助开发新药,模拟湍流以改进飞机发动机设计,以及创建开源大型语言模型(llm)以与谷歌(Google)和OpenAI的人工智能(AI)工具竞争。

来自世界各地的研究人员登录Frontier。2023年,这台超级计算机在18个国家拥有1744名用户。橡树岭预计,到2024年,Frontier的用户将至少发表500篇基于在该机器上执行的计算的论文。

橡树岭国家实验室的生物物理学家Dilip Asthagiri 说:“Frontier和詹姆斯·韦伯太空望远镜没什么不同。”“我们应该把它看作一种科学仪器。”

仪器内部

Frontier的大脑位于一个仓库大小的房间里,房间里充满了稳定的电子嗡嗡声,轻柔得足以让人交谈。房间里有74个相同的光滑黑色机架,总共容纳9408个节点。这些都是超级计算机的主力部件。每个节点由4个图形处理器(GPU)和1个计算机处理器(CPU)组成。

制造这台超级计算机的惠普企业公司(Hewlett Packard Enterprise)的技术人员Corey Edmonds说,一组工程师一直在监控这台机器,寻找故障迹象。Edmonds在Oak Ridge工作,今天在Frontier做维护。在一个节点上固定了一个损坏的连接器后,他从注射器中挤出灰色的导热脂到一个银色矩形上——节点的四个之一。这有助于GPU快速散热并保持凉爽。

Frontier的速度主要归功于其广泛使用的GPU。这些芯片最初是为了给电脑游戏玩家呈现逼真的图形而开发的,现在正通过机器学习应用推动人工智能的进步。

Bronson Messer说:“它们跑得非常快。”“他们也蠢得要命。”GPU擅长一次处理很多数字——除此之外就没什么了。“它们可以一遍又一遍地做一件事,”他说,这使得它们在超级计算机的快速计算中很有用。

研究人员必须定制他们的代码来利用Frontier的GPU。Bronson Messer把一位科学家第一次使用Frontier比作一个郊区司机征用一辆赛车。“它有方向盘、油门踏板和刹车,”他说。“但试着让一名普通车手驾驶一级方程式赛车,让他们从这里到那里。”

大科学

对于研究人员来说,获得使用Frontier的机会并不容易。Bronson Messer和他的三位同事开会来评估有关申请使用这台机器的研究提案。平均而言,他们批准了大约四分之一的提案,去年批准了131个项目。申请者需要证明他们的项目可以从使用超级计算机的整个系统中获益。

它们提供的最常见的分配大约是500,000个节点时(node hours),相当于连续运行整个机器三天。他们最大的配置是这个数字的四倍。在Frontier上获得时间的研究人员获得的计算资源大约是他们在其他地方获得的10倍。他的团队每周发放大约20,000个节点时(node hours)的小奖励。许多项目都利用Frontier的能力,可以同时对大范围的空间和时间尺度进行建模。Frontier每年总共有大约6500万个可用节点时(node hours)。

例如,科学家希望使用Frontier来模拟原子精确的生物过程,例如溶液中的蛋白质或核酸与细胞的其他部分相互作用。

今年5月,Dilip Asthagiri 和橡树岭的高性能计算工程师Nick Hagerty利用Frontier模拟了一个含有超过1550亿个水分子的立方体液态水滴。“这是为了推动机器,”模拟的立方体大约是人类头发宽度的十分之一,这个模型是有史以来最大的原子级模拟之一,Asthagiri说,他还没有在同行评审的期刊上发表这项工作。

这些最初的模拟正在朝着更宏伟的目标发展,从原子开始模拟整个细胞。在短期内,研究人员希望模拟细胞器,并将其用于实验室实验。他们还致力于将Frontier的高分辨率生物材料模拟与使用x射线自由电子激光器的超快速成像相结合,以加速发现。

有了Frontier,气候模型也变得更加精确。2023年,橡树岭气候科学家Matt Norman和其他研究人员使用超级计算机运行了一个分辨率为3.25公里的全球气候模型。Frontier的计算能力对于他们在这个分辨率下建立一个长达几十年的预测是必要的。该模型还纳入了云的复杂运动的影响,这在更精细的分辨率下发生。“Frontier的所有员工都参与其中。”模型在其他计算机上运行要慢得多,才能达到同样的分辨率,同时还要考虑云的影响。这一限制是气候科学家试图预测天气状况的一个主要障碍,因为云的行为影响着全球能量的运动。要使一个模型对天气和气候预报具有实用性,它需要每天至少运行一个模拟年。Frontier可以为这个模型每天运行1.26个模拟年,这个速度将使研究人员能够比以前更准确地预测50年。

Frontier还为宇宙尺度带来了更高的分辨率。宾夕法尼亚州匹兹堡大学的天体物理学家Evan Schneider正在使用超级计算机研究银河系大小的星系随着年龄的增长是如何演变的。Frontier的星系模型跨越了四个数量级,直到大约10万光年(30660秒差距)大小的大型星系结构。在Frontier之前,她能以相当分辨率模拟的最大结构是矮星系,其质量约为前者的1 / 50。Evan Schneider模拟了超新星如何导致气体从这些星系中泄漏出来。随着时间的推移,成千上万的超新星爆炸共同释放出大量的气体,最终离开银河系。因为这些气体是新恒星诞生的原料,所以随着星系年龄的增长,恒星形成的速度会减慢。她的模拟表明,目前的宇宙学模型低估了这种热气体在星系演化中的作用。

人工智能研究人员也在争取Frontier的GPU研发时间,这些GPU以其在训练基于神经网络的架构(如支撑ChatGPT的变压器模型)中的作用而闻名。Frontier拥有近3.8万个GPU,在人工智能研究领域扮演着独特的公共部门角色。

Nur Ahmed是阿肯色大学(University of Arkansas)的经济学研究员,他和同事去年在一篇评论文章中强调了学术界和工业界在人工智能方面的差距。2021年,96%的大型人工智能模型来自工业。平均而言,行业模型的大小几乎是学术模型的30倍。这种差异在货币投资方面也很明显。2021年,美国非国防机构提供了15亿美元用于支持人工智能研究。同年,全球工业界此项支出超过3400亿美元。

小心差距

自从商业大型语言模型发布以来,这种差距只会扩大。例如,训练OpenAI的GPT-4的计算资源估计花费了7800万美元,而谷歌花了1.91亿美元来训练Gemini Ultra。这种投资上的鸿沟导致了工业界和学术界研究人员可获得的计算资源的明显不对称。

工业界正在推动基础人工智能研究的边界,这可能会给该领域带来问题。行业主导可能导致缺乏不能立即盈利的基础研究,并导致开发人工智能技术时忽视了低收入团体的需求。在一项未发表的研究中,Ahmed分析了600万篇同行评议文章和3200万项专利引用,发现“平均而言,工业界具有忽视全球南方边缘化人口的一些倾向”。更重要的是,许多模型存在性别和种族偏见的问题,正如在几个基于人工智能的商业面部识别系统中发现的那样。学者可以充当审计人员,评估人工智能模型带来的风险,但要做到这一点,他们需要获得与工业界同等规模的计算资源。

这就是Frontier的用武之地。一旦橡树岭批准了一个项目申请,研究人员就可以免费使用超级计算机,只要他们公布他们的结果。马里兰大学帕克分校的计算机科学家Abhinav Bhatele说,这将有助于大学研究人员与公司竞争。他说:“学术界人士训练类似规模模型的唯一方法是,他们是否能获得Frontier这样的资源。”

Bhatele正在使用Frontier开发开源大型语言模型以抗衡工业模式。Bhatele说:“通常,当公司训练他们的模型时,他们会保留模型的专有权,并且不会发布模型的权重(参数)。”“通过这项开放的研究,我们可以让这些模型免费供任何人使用。”在接下来的一年里,他和他的团队的目标是训练一系列不同大小的语言模型,他们将把这些模型连同它们的权重一起开源。他们还免费提供了训练模型的软件。通过这种方式,Frontier在人工智能“民主化”的运动——让更多人参与到这项技术的开发中来——中扮演着至关重要的角色。

竞争仍在继续

在“Frontier”号所在的房间几扇门之外,它的前任——Summit仍在为世界各地的科学家努力工作。这台名为Summit的超级计算机在2018年至2019年期间保持着世界速度纪录,目前在全球公共计算机中排名第九。Summit的黑色长铬机架与Frontier相似,但它的冷却系统声音更大,运行速度只有后者的八分之一。

Summit的历史暗示了Frontier的未来。Frontier在2022年首次荣登榜首,但可能不久之后就会让出这一位置。排名第二的超级计算机Aurora位于伊利诺斯州的阿贡国家实验室,经过进一步优化,它的性能有望在某个时候超过Frontier。劳伦斯利弗莫尔国家实验室的El Capitan计划于今年晚些时候在加州的实验室上线,预计最终也将击败Frontier。此外,德国的百亿亿次超级计算机Jupiter也将于今年晚些时候首次亮相。

不断加剧的地缘政治紧张局势使排名进一步复杂化。Frontier的名字来自于它在一家名为TOP500的组织半年一次的排名中所处的位置。它对世界上的超级计算机进行排名,依据的是它们在解决一组密集线性方程的基准任务上的表现。但计算专家表示,美国和中国很可能没有公开分享有关其计算资产的信息,特别是因为两国之间的关系日益紧张。华盛顿智库大西洋理事会(Atlantic Council)的政策研究员Kevin Klyman表示:“有一种超级计算竞赛的想法。”事实上,在2022年,美国总统乔·拜登领导的政府对向中国出口半导体实施了控制,特别提到了对中国超级计算能力的担忧。在超级计算领域,这种紧张关系几年前就开始了。值得注意的是,2016年,中国在TOP500榜单上的超级计算机数量超过了美国。“这在美国引起了很多焦虑,”Klyman说。“很多美国政策制定者说,‘我们如何才能在榜单赶上去?’”

目前,在今年6月发布的全球超级计算机500强排行榜上,这两个国家拥有最多的超级计算机。美国号称有168台,而中国只有80台。然而,研究人员想知道,这些国家是否拥有没有公开披露的更强大的超级计算机。事实上,自去年11月以来(当时有104台中国机器上榜)上榜的中国机器数量有所下降。中国也没有公布任何新型超级计算机的测试结果。

橡树岭已经在计划Frontier的后继者,叫做Discovery,它的计算速度应该是Frontier的三到五倍。这将是数十年来对速度的追求中最新的一次。“Frontier”比2014年最快的计算机“天河2a”快35倍,比2004年最快的超级计算机“地球模拟器”快3.3万倍。来自www.TOP500.org

研究人员渴望更快的速度。她说,一台更大的计算机将能够以更高的分辨率模拟星系。它还可以为科学家提供更大的计算预算。但是工程师们面临着一个持续的挑战:超级计算机消耗大量的能量,未来的机器可能需要更多的能量。因此,研究人员正在继续推动能源效率的提高。Frontier的效率是Summit的四倍多,这在很大程度上是因为它是用室温水冷却的,而Summit则使用冷水。Frontier总能耗的3-4%用于冷却,而Summit的这一比例为10%。

多年来,能源效率一直是建造更快的超级计算机的关键瓶颈。梅塞尔说:“我们本可以在2012年建造一台百亿亿次的超级计算机,但为它提供动力太贵了。”“我们需要多一到两个数量级的电力才能为它提供电力。”

夜幕降临时,在橡树岭工厂,Frontier楼层的走廊里空荡荡的,只剩下几个工作人员。在超级计算机的控制室里, Conner Cunningham负责晚上照看Frontier。从晚上7点到早上7点,他的工作是确保超级计算机在处理来自世界各地研究人员的任务时不会出现任何问题。他使用十多台监视器来监视Frontier,这些监视器显示全球网络安全威胁和大楼的安全摄像头镜头。角落里的电视静音播放着当地的天气预报,提醒他即将到来的暴风雨可能会中断供电。

但大多数夜晚都足够安静,Cunningham可以坐在办公桌前学习在线计算机科学学位。他会进行几次检查,以检查房屋中是否有意外情况,但这项工作基本上是被动的。“这有点像消防员,”他说。“如果发生什么事,你需要有人看着。”他买了四个墨西哥卷饼和一些百事可乐来维持他的轮班。他今晚睡不着,Frontier也睡不着。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号