新的数据集将训练人工智能模型像科学家一样思考

【字体: 时间:2024年12月04日 来源:AAAS

编辑推荐:

  今天,polymatic人工智能团队向公众发布了两个开源训练数据集集合——来自数十个来源的总计115tb的庞大数据集——供科学界用于训练人工智能模型并实现新的科学发现。这些数据集包括来自几十个来源的数据,包括天体物理学、生物学、流体动力学、声学和化学。polymatic人工智能团队在两篇论文中提供了有关数据集的进一步信息,这些论文将于12月在加拿大温哥华举行的领先的机器学习会议NeurIPS上发表。

  

关于血液如何流过动脉,爆炸的恒星能告诉我们什么?或者关于海洋各层如何混合的游泳细菌?来自大学、科学慈善机构和国家实验室的研究人员合作,在训练人工智能模型方面取得了重要的里程碑,这些模型可以在看似不同的领域之间寻找和利用可转移的知识,以推动科学发现。

这个项目被称为“多学科人工智能”,它使用的技术类似于OpenAI的ChatGPT或b谷歌的Gemini等大型语言模型。但是,该项目的模型并没有摄取文本,而是使用来自天体物理学、生物学、声学、化学、流体动力学等学科的科学数据集进行学习,基本上为模型提供了跨学科的科学知识。

纽约市熨斗研究所(Flatiron Institute)的研究工程师、polymattic AI成员Michael McCabe表示:“这些开创性的数据集是迄今为止为这些领域的机器学习训练收集的最多样化的大规模高质量数据集。”“管理这些数据集是创建多学科人工智能模型的关键一步,这将使我们对宇宙有新的发现。”

今天,polymatic人工智能团队向公众发布了两个开源训练数据集集合——来自数十个来源的总计115tb的庞大数据集——供科学界用于训练人工智能模型并实现新的科学发现。(相比之下,GPT-3使用了45太字节的未压缩、未格式化文本进行训练,过滤后的最终数据约为0.5太字节。)

“免费提供的数据集是开发复杂机器学习模型的前所未有的资源,这些模型可以解决各种各样的科学问题,”polymatic AI成员、熨斗研究所计算数学中心(CCM)研究员鲁本·奥哈纳说。“机器学习社区一直都是开源的;这就是为什么与其他领域相比,它的发展速度如此之快。我们认为,将这些数据开源共享将有利于机器学习和科学界。这是一个双赢的局面——你有机器学习可以开发新的模型,同时,科学界可以看到机器学习能为他们做些什么。”

完整的数据集可以从熨斗研究所免费下载,也可以在托管人工智能模型和数据集的平台HuggingFace上访问。polymatic人工智能团队在两篇论文中提供了有关数据集的进一步信息,这些论文将于12月在加拿大温哥华举行的领先的机器学习会议NeurIPS上发表。

McCabe说:“我们一次又一次地看到,推进机器学习最有效的方法是接受困难的挑战,并让更广泛的研究界能够接触到它们。”“每次发布新的基准时,最初似乎都是一个无法克服的问题,但一旦一个挑战被更广泛的社区所接受,我们就会看到越来越多的人投入其中,并以比任何单个团体更快的速度加快进展。”

多学科人工智能项目由西蒙斯基金会及其熨斗研究所、纽约大学、剑桥大学、普林斯顿大学、法国国家科学研究中心和劳伦斯伯克利国家实验室的研究人员负责。

机器学习等人工智能工具在科学研究中越来越普遍,包括在今年的两个诺贝尔奖中得到认可。尽管如此,这些工具通常是专门为特定应用程序构建的,并使用该领域的数据进行训练。相反,多学科人工智能项目旨在开发真正多学科的模型,就像专业知识跨越多个领域的人一样。该项目的团队本身反映了智力的多样性,有物理学家、天体物理学家、数学家、计算机科学家和神经科学家。

两个新的训练数据集中的第一个集中在天体物理学上。这个被称为“多模态宇宙”的数据集包含了数亿次天文观测和测量,比如美国宇航局詹姆斯·韦伯太空望远镜拍摄的星系肖像,以及欧洲航天局盖亚宇宙飞船对银河系恒星的测量。

“机器学习在天体物理学领域已经出现了大约10年,但它仍然很难跨仪器、跨任务和跨科学学科使用,”polymatics人工智能研究科学家弗朗索瓦·拉努塞说。“像多模态宇宙这样的数据集将使我们能够建立能够本地理解所有这些数据的模型,并可以用作天体物理学的瑞士军刀。”

总的来说,数据集达到了100tb,这是一项重大任务。“我们的工作来自大约12个研究所和24名研究人员,为机器学习成为现代天文学的核心组成部分铺平了道路,”牛津大学施密特人工智能科学研究员、polymatic AI成员Micah Bowles说。“只有通过广泛的合作,不仅是polymatic人工智能团队,还有来自世界各地的许多专家天文学家,才能组装这个数据集。”

另一个名为Well的集合包含来自16个不同数据集的超过15tb的数据。这些数据集包含生物系统、流体动力学、声散射、超新星爆炸和其他复杂过程的数值模拟。虽然这些不同的数据集乍一看似乎没有联系,但它们都需要对称为偏微分方程的数学方程进行建模。这样的方程出现在从量子力学到胚胎发育的所有问题中,即使对超级计算机来说,也很难解决。Well的目标之一是使人工智能模型能够快速准确地生成这些方程的近似解。

“这个数据集包含了各种各样的物理模拟,旨在解决当前机器(学习)模型的关键局限性,”polymatic AI成员、CCM研究员鲁迪·莫雷尔(Rudy Morel)说。“我们渴望看到在所有这些情况下都表现良好的模型,因为这将是向前迈出的重要一步。”

奥哈纳说,为这些数据集收集数据是一个挑战。该团队与科学家合作,为该项目收集和创建数据。他说:“由于所有的炒作,数值模拟的创造者有时对机器学习持怀疑态度,但他们对机器学习以及它如何有益于他们的研究和加速科学发现感到好奇。”

polymath人工智能团队现在正在使用这些数据集来训练人工智能模型。在接下来的几个月里,他们将把这些模型部署到各种任务中,看看这些全面发展、训练有素的人工智能在解决复杂的科学问题方面有多成功。

“了解机器学习模型如何在来自不同物理系统的数据集之间进行泛化和插值是一项令人兴奋的研究挑战,”polymatic AI成员、CCM研究员r 加尔多-圣布兰卡德说。

polymatic人工智能团队已经开始使用这些数据集训练机器学习模型,“早期的结果非常令人兴奋,”polymatic人工智能项目负责人、熨斗研究所计算天体物理中心的小组负责人Shirley Ho说。“我也期待着看到其他人工智能科学家将如何处理这些数据集。就像蛋白质数据库催生了AlphaFold一样,我很高兴看到Well和多模态宇宙将帮助创造什么。”Ho将在NeurIPS会议上发表演讲,强调这项工作的用途和令人难以置信的潜力。


相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号