BERT 与贝叶斯主动学习携手:药物设计数据高效新策略

【字体: 时间:2025年04月24日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  在药物发现中,化合物筛选需精准且高效。研究人员开展 “Molecular property prediction using pretrained - BERT and Bayesian active learning” 主题研究,发现结合预训练 BERT 和贝叶斯主动学习可提升模型性能与筛选效率,为药物设计提供新框架。

  在药物研发的广袤领域中,如何从海量的化合物里精准筛选出有潜力的药物分子,一直是科研人员面临的重大挑战。传统的定量结构 - 性质关系(QSPR)依赖手工制作的描述符,在处理复杂的分子结构时存在局限性。而现代深度学习方法,虽然强大,但在主动学习(AL,一种半监督机器学习方法,通过迭代选择最具信息的样本进行标注来提升模型性能)场景下,因初始数据有限容易过拟合,导致不确定性估计不准确,影响了药物筛选的效率和准确性 。因此,寻找一种更有效的方法来提高药物筛选效率和模型性能迫在眉睫。
来自阿尔托大学(Aalto University)和曼彻斯特大学(University of Manchester)的研究人员开展了一项关于 “Molecular property prediction using pretrained - BERT and Bayesian active learning: a data - efficient approach to drug design” 的研究。他们将基于 Transformer 的 BERT 模型(在 126 万个化合物上进行预训练)集成到主动学习流程中,成功地将表示学习和不确定性估计分离,实现了更可靠的分子选择。研究表明,这种方法在 Tox21 和 ClinTox 数据集上,与传统主动学习相比,能够用少 50% 的迭代次数识别出等效的有毒化合物。这一成果为药物发现提供了一个可扩展的框架,显著提升了模型性能和获取效率,对药物研发领域意义重大。该研究成果发表在《Journal of Cheminformatics》上。

为开展此项研究,研究人员主要运用了以下关键技术方法:

  • 数据集构建:使用 Tox21(包含约 8000 种化合物在 12 种不同毒性途径的毒性数据)和 ClinTox(结合 FDA 批准药物和因毒性未通过临床试验药物的数据)数据集,并采用支架拆分(scaffold splitting)方法按 80:20 的比例创建训练集和测试集123
  • 贝叶斯实验设计与主动学习:运用贝叶斯实验设计框架,通过定义如贝叶斯主动学习分歧(BALD)和预期预测信息增益(EPIG)等获取函数,来选择最具信息的未标记数据进行标注,以改进模型的后验分布456
  • 半监督主动学习(SSAL):利用预训练的 MolBERT 模型将分子 SMILES 序列编码为嵌入向量,并结合物理化学性质,训练全连接(MLP)头,从而在相对较小的数据集上进行主动学习78
  • 实用贝叶斯神经网络:采用贝叶斯神经网络,通过蒙特卡罗随机失活(MC dropout)估计模型不确定性,进行 20 次随机前向传递,计算预测均值和方差9

研究结果


  1. 主动学习性能比较:在 Tox21 和 ClinTox 数据集上,对比了不同获取函数(EPIG、BALD 和随机采样)和学习范式(监督主动学习 SAL 和半监督主动学习 SSAL)的性能。结果显示,BERT 特征始终优于扩展连接指纹(ECFP)特征,EPIG 在样本选择上比 BALD 和随机采样表现更优。例如,在 Tox21 数据集上,BERT - EPIG 的学习曲线斜率更陡,表明其每次迭代的样本选择更高效;在 ClinTox 数据集上,BERT - EPIG 比 ECFP - EPIG 收敛更早1011
  2. 学习表示分析:通过 UMAP 降维可视化和主成分分析(PCA)等方法分析学习到的表示。发现 BERT 特征具有更结构化的组织,正样本(有毒化合物)分布在不同的簇中,使模型能更好地基于与标记样本的接近程度对未标记样本进行预测;而 ECFP 表示分布更分散,正负样本区域重叠明显,导致模型难以学习有意义的模式,不确定性估计不可靠1213
  3. 模型校准分析:分析预期校准误差(ECE)发现,BERT - 基于的方法在主动学习早期阶段的 ECE 始终低于 ECFP - 基于的方法。特别是 BERT 特征结合 EPIG 获取函数,ECE 下降最快,表明其能更有效地学习校准良好的不确定性。而 ECFP - 基于的方法需要更多的标记数据才能达到良好的校准1415
  4. 样本获取模式分析:分析阳性样本(有毒化合物)的累积获取情况,发现 BERT - EPIG 在识别有毒化合物方面效率更高。在 ClinTox 数据集上,BERT - EPIG 仅用 266 次迭代就识别出 70% 的有毒化合物,相比之下,随机采样需要约 600 次迭代。而 ECFP - 基于的方法虽然初始获取率与 BERT - EPIG 相当,但性能更早达到平台期1617

研究结论与讨论


该研究表明,主动学习在分子性质预测中的成功关键取决于特征表示和获取函数之间的协同作用。BERT 特征相比 ECFP 能实现更有效的不确定性估计,这体现在更快的 ECE 收敛和更陡峭的学习曲线上。EPIG 在两个数据集上始终优于 BALD,从早期迭代开始就保持稳定的性能提升。BERT - EPIG 的优越性能源于 BERT 的结构化表示空间,它能将化学相似的化合物聚集在一起,便于从有限数据中进行可靠的不确定性估计;以及 EPIG 利用这种结构进行高效样本获取的能力,特别是在识别罕见阳性样本方面。该研究强调了高质量分子表示和良好校准的不确定性估计对成功的主动学习的重要性,为未来分子性质预测的研究指明了方向,即应专注于开发能实现可靠不确定性量化的特征表示,尤其是在低数据条件下。这一成果为药物研发领域提供了更高效的化合物筛选方法,有望加速新药的发现进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号