编辑推荐:
在化学反应搜索中,传统手动查询方式存在难题。研究人员开展 “Enhancing chemical reaction search through contrastive representation learning and human-in-the-loop” 主题研究,利用多种技术提出智能搜索系统。结果表明该系统能有效提升搜索效果,对化学研究意义重大。
在化学合成领域,化学反应的精准搜索与优化是成功设计合成路径的关键。一直以来,化学家们依赖化学反应数据库来探索通往目标物质的合成路线。传统的化学反应搜索方式,需要化学家根据自身搜索目的手动制定查询规则,从数据库中获取相关记录。但当他们对目标反应了解有限时,制定明确的查询规则困难重重,往往只能通过反复试错来筛选信息,耗时费力且效率低下。同时,现有的反应数据库搜索引擎,如 Reaxys、SciFinder 等,以及相关研究,都无法自动将用户对检索记录的评价融入搜索结果,难以满足用户需求。
为解决这些问题,来自 Samsung Advanced Institute of Technology 和 Sungkyunkwan University 的研究人员展开了深入研究。他们提出了一种智能化学反应搜索系统,旨在简化搜索过程,提高搜索结果与用户需求的契合度。相关研究成果发表在《Journal of Cheminformatics》上。
研究人员在这项研究中主要运用了以下几种关键技术方法:
- 对比表征学习:训练一个表征模型,将反应记录嵌入为数值向量,通过对比学习使同一反应的目标向量和预测向量接近,不同反应的向量远离,以此来衡量反应间的相似性。
- 维数约简:采用主成分分析(PCA)对高维向量进行降维,在保证一定精度的同时,降低计算和存储成本,提高搜索效率。
- 人在回路技术:用户可以对检索到的记录进行二元评分(正或负),系统根据用户反馈迭代更新表征模型,优化后续搜索结果。
下面介绍具体的研究结果:
- 反应产物预测:研究人员使用 USPTO-479k 数据集进行评估,该数据集包含 478,612 个化学反应记录。在反应产物预测任务中,研究人员对比了多种方法,包括 Mol2vec、MolBERT、MolR、ReaKE 以及本研究提出的方法。结果显示,在所有性能指标上,本研究提出的方法表现最佳。当不应用维数约简时,较高的维度p会带来更好的性能;当应用 PCA 进行维数约简时,在保证精度的前提下,预测过程更快更高效。例如,默认设置下(p=512,q=26),该方法的 Hit@1 达到 0.966,意味着在 96.6% 的测试反应中,排名最高的候选产物与真实产物完全匹配。
- 化学反应搜索与用户反馈:研究人员考虑了两种相似性匹配的查询类型,通过与三位经验丰富的实验化学家合作,设计了五个典型的用户偏好场景。在每个场景下,研究人员模拟化学反应搜索并根据用户反馈更新表征模型。结果发现,随着每次更新,平均命中率持续提高,这表明结合人类反馈能够有效提升搜索结果,使其更符合用户偏好。特别是在第一次更新后,性能提升最为显著。同时,应用维数约简后,检索速度大幅提升,从平均每个查询 0.64 秒降至 0.07 秒。
研究结论和讨论部分指出,本研究提出的增强化学反应搜索系统,通过自动整合用户反馈,有效改进了搜索结果。该系统利用对比表征学习和人在回路技术,从反应数据库和用户输入中学习,用户通过对检索记录的二元评分表达偏好和需求,简化了搜索过程。这一方法能够帮助用户更高效地发现与目标反应相关的记录,尤其是在用户因知识有限难以制定详细查询时优势明显。然而,该方法仍存在一些需要进一步研究的问题。比如,更新表征模型和向量嵌入的计算成本高且耗时,未来需要提高效率以实现实时更新;挖掘正负评分反应记录的共性并融入搜索系统,有助于用户更好地理解和完善目标反应知识;扩展搜索系统以提供试剂推荐,能够进一步增强其实用性。
总体而言,这项研究为化学反应搜索领域提供了新的思路和方法,虽然存在一些待解决的问题,但为后续研究指明了方向,有望推动该领域的进一步发展,对化学研究和合成路径设计具有重要的理论和实践意义。