基于生成式人工智能的化学分类程序合成:构建可解释的ChEBI化学类别程序本体(C3PO)

【字体: 时间:2025年10月03日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对化学结构分类中人工方法效率低下与现有自动化方法可解释性不足的问题,开发了一种利用生成式AI自动编写化学分类程序的新方法。研究人员通过Learn-Execute-Iterate-Adapt(LEIA)流程,成功为ChEBI数据库中的化学类别生成了可执行的Python分类程序,构建了ChEBI化学类别程序本体(C3PO)。实验表明C3PO在保持可解释性的同时,性能优于基于SMARTS的简单分类器,虽略低于最先进的深度学习模型,但提供了互补优势。该方法为化学数据库 curation 提供了可解释的自动化工具,显著提升了分类效率和透明度。

  
在当今大数据时代,化学数据库的规模正在以前所未有的速度增长。像PubChem和ChEMBL这样的数据库已经包含了数亿个化学结构,而潜在药物样分子的数量更是被估计达到1060个的天文数字。面对如此海量的数据,如何有效组织、分组和分类这些化学结构成为了化学信息学和生物信息学领域的重要挑战。
化学分类在医学和生物科学中具有至关重要的应用价值。药物化学家可能需要扫描基因组数据库以寻找萜类化合物的生产途径;药物开发人员需要识别适合药物靶点建模的分子类别;环境健康科学家则希望探索酚类化合物的暴露效应。这些应用都需要将化学结构准确分类到特定的类别中,而这些类别通常被组织成层次化系统。
目前,生命科学领域主要的化学结构分类系统是ChEBI(Chemical Entities of Biological Interest)数据库,它包含了近20万个化学结构按照数千个预定义类别的分类,这些类别以本体网络的形式排列。ChEBI已经成为化学信息学和生物信息学的重要资源,被广泛应用于各种数据库、知识库和本体中。例如,基因本体(GO)项目使用ChEBI进行化学分类和代谢途径管理;代谢组学数据库如MetaboLights使用ChEBI来标准化样品代谢物分配。
然而,ChEBI开发面临的一个主要瓶颈是分类工作历来主要依赖人工完成,需要专家知识和人工管理,这 inherently 耗时且随着化学数据库规模的增大而变得越来越具有挑战性。即使在ChEBI数据库本身的较小规模内,手动分类方法也经常导致不完整或不一致的分类。因此,迫切需要为管理者提供可解释的自动化方法来协助分类任务。
现有的自动化方法各有利弊。基于描述逻辑和一阶逻辑的推理方法受到OWL-DL表达能力的限制;基于SMARTS规则的分类方法(如ClassyFire系统)虽然更自然,但当前系统是静态的,自2016年以来未更新,且现有的SMARTS表达式不公开;深度学习方法(如Chebifier)虽然能达到高精度,但缺乏可解释性,且对于训练数据中代表性不足的类别表现较差。
为了解决这些问题,Mungall等人开展了一项创新性研究,发表在《Journal of Cheminformatics》上。他们提出了一种使用生成式人工智能自动编写化学分类器程序的新方法,这些程序可用于对SMILES结构进行高效确定性运行时分类,并提供自然语言解释。这些程序本身构成了化学类别名称的可计算本体模型,称为ChEBI化学类别程序本体(C3PO)。
研究人员为开展这项研究采用了几个关键技术方法:首先使用了指令调优的基于文本的大型语言模型(LLM),包括GPT-4o、GPT-o1、GPT-o3-mini等多种模型;其次构建了带有RDKit预安装的Python执行环境,允许生成的Python程序利用RDKit库进行化学结构分析和操作;第三基于ChEBI数据库创建了基准数据集,包含分类的化学结构,并分割为学习和测试集;最后开发了Learn-Execute-Iterate-Adapt(LEIA)程序,这是一种受遗传编程方法启发的迭代过程,用于生成分类器程序。
研究方法:LEIA流程与基准构建
研究团队开发了Learn-Execute-Iterate-Adapt(LEIA)程序来生成ChEBI化学分类器程序本体(C3PO)。该流程为每个化学类别生成一个程序pc,该程序以SMILES字符串s作为输入,并返回一个包含布尔值m和解释e的元组,其中m指示s是否被分类为c的成员,e为分类决策的简明解释。
输入包括目标类别名称/标识、目标类别定义、正面示例(已知属于目标ChEBI类别的SMILES字符串集)和负面示例(已知不属于目标ChEBI类别的SMILES字符串集)。参数包括F1阈值(默认0.8)、最大尝试次数(设为4)、使用的LLM模型及其参数。输出是一个Python程序,包含名为is_的函数。
基准数据集源自ChEBI本体,使用CHEMROF框架基于LinkML构建,将ChEBI条目划分为分组类别(本文中的类别)和化学实体(要分类的事物,也称为结构)。最终在ChEBI v237上创建了核心C3PO基准,包含1364个类别和177,875个结构,其中80%用于学习,20%保留用于验证。
研究结果:程序学习性能与模型比较
研究表明,程序学习方法能够成功为化学类别的子集学习分类器。使用LEIA方法为基准中的所有346个类别合成了分类器程序本体(C3POs),保留20%的结构用于验证。还生成了一个集成程序套件,包含每个类别在训练数据上表现最佳的程序(C3PO-ensemble)。
基准中的类别显示出广泛的学习性得分范围,平均值为0.465,28%的类别的程序得分高于0.7。最高分和最低分类别在集成模型中的表现如图4所示。最易学习的类别包括简单的原子级别分类(硫属元素、钋原子)以及许多基于甘油骨架的类别(心磷脂、甘油三酯、三酰基甘油)。最难学习的类别包括更复杂的类别,如萜类化合物和生物活性分子(如二氢沉香呋喃倍半萜),以及一般的"生物共轭物"分组类别。
通过定义37个衍生分子描述符,系统分析了影响学习性的特征。学习性与高甘油骨架计数和长脂族链等特征呈正相关,与结构中环的数量呈负相关,这表明LLMs在推导涉及环系统推理的可靠程序方面存在系统性的不足,或者这些类别的基准存在系统错误。
模型比较显示,在所有基础实验中,强调推理的OpenAI模型优于其他模型,其中o3-mini在所有纯LLM模型中表现最佳(F1)。所有9个实验的C3PO集成模型总体最佳,相比顶级基础实验有显著提升。增加迭代次数对gpt-4o性能有轻微提升(图7中标记为iter6)。提供化学类别的ChEBI文本定义对性能没有影响。
研究结果:与深度学习方法的互补性
当对所有保留的测试样本进行评估时,学习程序的性能与最先进的深度学习方法Chebifier进行了比较。使用C3PO-Slim和Chebifier共有的243个类别进行计算。图8和表3显示了集成模型与Chebifier的宏观和微观结果统计比较。
结果表明,当考虑所有类别时,深度学习方法仍然比程序学习方法具有显著优势。当F1作为微观统计量计算时,这种优势尤其明显。宏观和微观统计之间的差异可以通过以下事实解释:当某个类别的学习性较差时,它对所有结构的表现都很差,而许多学习性较差的类别拥有大量结构。使用宏观统计可以平衡这种不平衡。
为了更好地理解两种方法的互补性,研究人员创建了两种方法基于类别的F1得分散点图,如图9所示。两种方法的各自得分之间存在中等正相关,但有许多类别不在对角线两侧,表明每种方法都有不同的优势。
通过使用补充表S1中定义的同一组分子描述符,研究了导致两种方法相对差异的特性。富集分析如图10所示,表明深度学习方法不像程序学习方法那样受到环数量的阻碍。程序学习方法在结构具有多个甘油骨架时表现出优势。其他特征如酯计数虽然显著但显示低效应。这种基于特征的解释有助于为改进两种方法提供未来方向。
研究结论与意义
本研究证明了使用生成式AI学习技术为化学结构生成分类器程序本体的可行性。所得程序具有可解释性、执行确定性,并为分类提供解释。尽管这些程序目前尚未达到最先进深度学习模型的性能,但它们提供了一种互补的方法,可以直接纳入管理 workflow,并作为迭代过程的一部分进行改进。
该研究的科学贡献在于展示了一种新颖的知识蒸馏技术,其中分类器是程序,利用了化学信息学软件库的力量。研究证明了其在化学结构分类和协助化学数据库管理方面的适用性。
这种方法有几个重要优势:首先,生成的程序是透明和可解释的,旨在建立信任和易于验证,并允许人类专家和其他机器代理未来对规则进行演化。其次,与深度学习方法相比,程序学习方法减少了数据依赖性。第三,学习步骤是可追溯和可解释的,与传统的深度学习中使用反向传播更新网络权重不同,程序学习中的程序和每次更新的原因都是可解释的。
然而,该方法也存在一些局限性。导入的化学术语中的错误会混淆训练过程和评估;ChEBI中质子化状态建模的复杂性增加了生成程序的复杂性;简单的程序学习导致模块化程度低,每个类别都有自己的独立程序,它们之间没有共享组件的重用;化学命名法中固有的模糊性需要解决。
未来研究方向包括使用代理AI同时学习程序和修复训练集错误;从互补方法创建混合分类器;以及将分类器程序应用于其他领域,如学习酶促反应(如RHEA数据库中表示的)的分类规则,以及学习生物合成基因簇(BGCs)的规则。
总之,这项研究为化学结构分类提供了一种新的可解释自动化方法,通过生成式AI学习技术生成的分类器程序本体(C3PO)在保持可解释性的同时提供了良好的分类性能,为化学信息学和生物信息学领域的自动化分类任务提供了有价值的工具和方法学进展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号