Insilicon联手英伟达 推出专为解决生物和化学任务的超强人工智能大型语言模型nach0

【字体: 时间:2024年05月24日 来源:生物通

编辑推荐:

  来自临床阶段人工智能(AI)驱动的药物开发公司Insilico Medicine的研究人员与NVIDIA合作,提出了一种新的大型语言模型(LLM)转换器,用于解决生物和化学任务,称为nach0。

  

来自临床阶段人工智能(AI)驱动的药物开发公司Insilico Medicine(“Insilico”)的研究人员与英伟达合作,开发了一种新的大型语言模型(LLM)转换器nach0,能够解决各种化学和生物任务:生物医学问题回答、命名实体识别、分子生成、分子合成、属性预测等。研究结果发表在《Chemical Science Journal》上。

庞大的训练数据

Nach0的训练数据集来自从PubMed提取的摘要文本和来自美国专利商标局的与化学领域相关的专利描述,化学数据部分来自ZINC数据集,包含约1亿篇文献——经过筛选剔除无关文档,有1300万个摘要文档,文本数据集包含3.55亿个摘要标记和29亿个专利标记,还有47亿个化学数据标记。使用简化分子输入系统(SMILES)记录的分子结构。

使用该数据集,研究人员训练nach0执行三个关键任务:自然语言处理,如文档分类和问题回答;与化学相关的任务,如分子性质预测、分子生成和试剂预测;跨域任务,包括描述引导的分子设计和分子描述生成。与用于生物医学领域的其他LLM(如FLAN、SciFive和MolT5)相比,nach0在使用分子数据执行分子任务时具有明显的优势,并且明显优于ChatGPT。虽然还有其他为生物医学发现而设计的大型语言模型(LLM),包括BioBERT(Bidirectional Encoder Representations from Transformers for Biomedical Text Mining)和SciFive,但这些数据集主要依赖于生物医学自然语言文本,如药物、基因和细胞系名称,但不包含化学结构描述。那些同时具有文本和化学结构描述的,比如Galactica,还没有接受过各种化学任务的训练。

设计和验证功能分子将变得如此简单

研究人员在两个案例研究中测试了nach0的能力。第一个是产生能够有效对抗糖尿病的分子结构。研究人员输入了“发现具有潜在治疗活性的生物靶点,分析作用机制,生成分子结构,提出一步合成,预测分子性质”的提示。他们生成了200个SMILES,并从化学专家知识的角度选择了一个最有希望的结构。研究人员认为,这种半自动化的方法是发现新分子和评估其性质的有效方法,该模型的进一步迭代将需要较少的监管,药物化学家可以将其作为生成和验证想法的辅助工具。

另一个是用nach0完成一项已用Chemstry42完成发表的案例研究设置并比较。Chemstry42是insilo Medicine的人工智能药物发现平台,可以使用42个生成模型高效地生成新的活性分子结构。他们用nach0,以“为Janus激酶3 (Janus kinase 3, JAK3)生成一个包含经典激酶铰链结合基序的随机类药物小抑制剂分子”为提示符生成一组结构。nach0不能获得特定的晶体结构和其他必需的性质,因此该模型仅使用其关于JAK3的知识来生成分子。在短短45分钟(其中15分钟用于生成,30分钟用于Chemstry42评分)中,nach0发现了8个满足所有2D和3D要求的分子。nach0在生成过程中还没有从强化学习反馈中学习,也没有实际的实验设置知识,需要强化学习能力来扩展模型,以提高生成质量。

使用英伟达平台

Nach0建立在英伟达 BioNeMo生成式人工智能平台上,支持药物发现应用的培训和扩展。具体来说,训练是使用NVIDIA NeMo进行的,这是一个用于开发定制生成人工智能的端到端平台。研究团队利用NLP能力来训练和评估新模型的LMs。NVIDIA的内存映射数据加载器模块允许研究人员以较小的内存占用和最佳的读取速度管理大型数据集。

英伟达生命科学业务发展全球主管Rory Kelleher表示:“生成式人工智能和法学硕士正在改变生物学和化学科学发现的格局。Insilicon的特定领域nach0模型由NVIDIA BioNeMo提供支持,是释放LLM在药物发现方面的全部潜力的重要一步。”

Insilico Medicine创始人兼首席执行官Alex Zhavoronkov博士表示:“Nach0代表了通过自然语言提示自动化药物发现的一步。在未来,我们预计蛋白质序列可能会包含它们自己的特殊标记,并对模型进行微调,以适应新的模式,并探索文本和知识图谱信息的融合。”

Insilico的高级研究科学家、该论文的主要作者之一Maksim Kuznetsov说:“我们预计,随着nach0的发展,它将需要更少的监督,它将能够简单地为药物化学家产生和验证有前途的方案。”

人工智能平台开发设计的候选药物

Insilico Medicine是将生成式人工智能用于药物发现和开发的先驱。2016年,该公司首次在同行评审期刊上描述了使用生成式人工智能设计新分子的概念。然后,Insilico为其基于生成对抗网络(GAN)的人工智能平台开发并验证了多种方法和功能,并将这些算法集成到商用Pharma AI平台,包括生殖生物学,化学和医学,并已用于在多个疾病领域产生强大的有前途的治疗资产,其中一些已获得许可。自2021年以来,Insilico已在其30多个资产的综合投资组合中提名了18个临床前候选药物,并已将6个推进到临床阶段。2024年3月,该公司在《Nature Biotechnology》杂志上发表了一篇论文,披露了一种使用生成式人工智能发现和设计的候选药物——TNIK抑制剂,用于治疗特发性肺纤维化——的原始实验数据以及临床前和临床评估。目前正在患者的II期试验中。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号