编辑推荐:
在化学信息学和药物化学领域,分子相似性计算意义重大。传统图基方法计算复杂,指纹法又存在局限性。研究人员开发 GESim 方法,基于冯?诺依曼图熵(vNGE)计算分子相似性。结果显示其性能优异,为相关研究提供新方向。
在化学信息学和药物化学的奇妙世界里,分子相似性的计算就像一把神奇的钥匙,开启了从数据库搜索到虚拟筛选等众多应用的大门。目前常用的分子指纹法虽广泛应用,但它就像戴着有色眼镜看分子,无法全面捕捉分子的结构特征。而基于图的方法,如强大的图编辑距离(GED),虽能更精准地把握分子的拓扑和整体结构特点,却因计算复杂度高(
O(n3)时间,n 为分子中原子数),在实际应用中困难重重,就像一辆动力强劲但油耗极高的超级跑车,难以普及。在这样的背景下,为了找到一种高效且准确的分子相似性计算方法,来自日本筑波大学计算科学中心、MolNavi LLC、横滨市立大学医学研究生院的研究人员踏上了探索之旅,他们的研究成果发表在《Journal of Cheminformatics》上。
研究人员开发了 GESim(Graph - based Molecular Similarity Calculation via von Neumann Graph Entropy)这一基于冯?诺依曼图熵(vNGE)的超快图基分子相似性计算方法。该方法主要运用了 vNGE 和量子詹森 - 香农(QJS)散度等关键技术。vNGE 通过提取图的光谱特征来量化图的结构复杂性,反映节点间的连接性,但传统计算 vNGE 成本高昂。GESim 采用一维结构信息(SI)替代直接计算 vNGE,SI 通过节点度近似 vNGE,能在短时间内完成计算且误差极小。QJS 散度则用于衡量两个分子的 vNGE 之间的相似性,以此计算分子间的相似性。
研究人员使用了两个基准数据集对 GESim 进行评估。在结构相似性基准测试中,包含单测定和多测定数据集,用于测试相似性度量对非常相似的类似物和多样分子结构的排序能力。结果显示,在单测定基准测试中,GESim 与表现最佳的原子对指纹(APFP)性能相当,平均可再现或几乎再现 618 个原始系列顺序;在多测定基准测试中,GESim 表现中等,平均可再现和几乎再现 1018 个原始系列顺序,超过了 APFP。而且,GESim 在区分高度相似分子方面表现出色,在其他方法难以区分时,它能凭借 vNGE 算法考虑原子度分布的差异,成功区分相似分子。
在功能相似性基准测试中,研究人员基于配体的虚拟筛选进行实验,涉及来自三个数据库的 118 个靶点列表的活性分子和诱饵分子。结果表明,GESim 在某些靶点上表现优于其他方法,但总体性能处于中等水平。在计算时间比较方面,GESim 计算 1000 个分子相似性的平均时间为 1.098 秒,虽比基于指纹的代表性方法 ECFP 慢,但比图基方法 GED 快得多,且能完成基准计算,说明其可在实际中应用。
综合来看,GESim 为分子相似性计算带来了新的曙光。它在计算速度上与指纹法相当,又能像图基方法一样考虑整个分子图,在区分高度相似分子方面具有独特优势。这一成果为基于图的相似性计算方法在虚拟筛选、数据库搜索等药物研发关键环节的应用开辟了新道路,有望加速新药发现的进程,为人类健康事业做出重要贡献。