基于HSQC分子网络的NMR结构表征新范式:推动天然产物发现与药物研发的高通量注释

《Communications Chemistry》:Structure characterization with NMR molecular networking

【字体: 时间:2025年12月18日 来源:Communications Chemistry 6.2

编辑推荐:

  本研究针对核磁共振(NMR)结构解析自动化程度低、依赖人工经验的瓶颈,开发了HSQC(异核单量子相干)分子网络技术。研究人员通过改进匈牙利距离算法、构建光谱相似性网络,实现了注释传递和化合物去重复,并结合图拓扑指标提出算法分子网络,显著提升了未知代谢物识别的准确性与效率,为天然产物研究和药物开发提供了可扩展的高通量解决方案。

  
在化学和生物学研究中,确定未知化合物的分子结构犹如破解自然界的密码。核磁共振(NMR)光谱学是完成这一任务的关键技术之一,尤其是异核单量子相干(HSQC)二维NMR实验,能够关联氢核(1H)和碳核(13C)的化学位移,为结构解析提供重要信息。然而,与质谱(MS)领域高度自动化的数据处理流程相比,NMR结构解析仍严重依赖专家的手动分析,一个未知结构的鉴定可能耗时数小时至数周,甚至更长。其中一个核心挑战在于,HSQC光谱与分子结构之间的对应关系并非总是直观和一致:化学结构迥异的分子可能因官能团峰的重叠而呈现相似的光谱(假阳性),而结构相似的分子却可能因局部磁环境的微小差异导致光谱距离较远(假阴性)。这种“不连贯性”使得传统的数据库检索方法(如top-k查找)在效率和准确性上存在天花板,尤其是在处理新颖化学结构或大规模光谱库时,容易出现误判和效率下降的问题。此外,大规模、高质量的实验HSQC数据集稀缺,也限制了机器学习模型的应用。这些瓶颈严重制约了NMR技术在天然产物发现、代谢组学和药物研发中发挥其全部潜力。
为了突破这些局限,由Cailum M.K. Stienstra、Jaegun Song、Daniel Domingo-Fernandez等来自Enveda Therapeutics公司及多个学术机构的研究团队在《Communications Chemistry》上发表了他们的最新成果。他们借鉴了质谱领域成功的分子网络(Molecular Networking)理念,首次将这一范式系统性地引入NMR领域,开创了“HSQC分子网络”(NMR Molecular Networking),旨在利用光谱间的传递性关系来提升结构注释的可靠性和通量。
本研究主要采用了以下几项关键技术方法:首先,利用Mestrelab Mnova NMRPredict软件对从COCONUT和LOTUS等天然产物数据库中筛选出的约37万种化合物进行了HSQC光谱模拟,构建了大规模的计算光谱库,并辅以从PubChem获取的千余张实验HSQC光谱进行基准测试。其次,开发了一种改进的匈牙利距离(Modified Hungarian Distance)算法用于HSQC光谱的峰值匹配,该算法通过引入基于官能团不确定性的结构容忍度,更好地捕捉部分结构匹配。第三,通过全对全(all-vs-all)的光谱相似性比较,构建了HSQC分子网络,其中节点代表光谱,边代表光谱和结构相似性(使用Tanimoto、最大公共子图MCS及其混合Hybrid相似度等多种度量)。最后,提出了算法分子网络(Algorithmic Molecular Networking),利用图拓扑指标(如乘积加权资源分配PWRA指数)对top-k查找结果进行重新排序,通过网络的局部邻域信息来校正单纯依赖光谱相似度的排名,从而提高结构检索效率。
2.1. 确定HSQC的结构解析极限
研究人员首先探讨了一个核心问题:HSQC光谱在多大程度上能够支持结构解析?他们通过比较大量实验和模拟HSQC光谱对之间的光谱距离与结构相似度发现,两者之间并不总是呈现连贯的对应关系。
低结构相似度并不总能保证大的光谱距离(存在假阳性),而高结构相似度对有时也会表现出较大的光谱距离(存在假阴性)。这种不连贯性表明,仅依靠 pairwise 的光谱比较进行结构鉴定存在固有风险,假阳性的相对高频率是结构指认的主要障碍。
2.2. 改进匈牙利距离用于Top-K查找
在引入新工具之前,研究团队系统评估了当前主流方法——top-k数据库查找的局限性。他们使用改进的匈牙利距离和原始的匈牙利-NN(Hungarian-NN)算法,将实验HSQC光谱与包含99,719个模拟光谱的库进行比对。
结果显示,改进的匈牙利算法在所有化学覆盖范围(优秀匹配、接近匹配、差匹配)下均优于匈牙利-NN。然而,即使在数据集存在完全匹配(Hybridmax= 1.0)的理想情况下,top-1检索也只能召回48%的匹配,top-5召回率为73%。此外,研究还发现,随着光谱库规模的扩大,检索效率会出现平台期甚至下降,这种现象被定义为“数据集稀释”(dataset dilution),即库中无关化合物和假阳性数量的增长速度快于正确结构数量的增长,导致检索信噪比降低。
2.3. HSQC分子网络
鉴于top-k查找在低覆盖率区域效果不佳、即使在理想条件下结构回收效率也不高,以及库扩展会增加假阳性风险等问题,研究团队提出了HSQC分子网络的概念。
该网络基于模拟HSQC光谱构建,包含99,719个节点和401,859条边。通过对子图(如香豆素衍生物集群)的手动检查发现,局部网络邻域能够很好地保留骨架结构并突出结构修饰模式,证明了网络在捕捉化学空间传递性关系方面的能力。
2.4. HSQC分子网络的应用
2.4.1. 注释传递与结构去重复
研究通过一个案例展示了HSQC分子网络的实际应用价值。他们将一个未知的实验HSQC光谱(后经手动鉴定为长春花生物碱Pleurosine)查询到构建的分子网络中。
网络分析不仅快速(一分钟内)给出了高结构相似度的候选结构(如节点1,结构效率达95%),还通过邻域连通性有效识别了潜在的假阳性(如节点7,与查询邻域断开连接)。更重要的是,网络传递性揭示了top-k查找可能遗漏的高相似度候选物(如节点4,结构效率为1.0),尽管其因醛基峰匹配问题未被光谱相似度算法高度排名,但其在查询邻域内具有高度连通性。这为NMR专家提供了除单纯排名外的额外置信度依据。
2.4.2. 算法分子网络
为了系统性地利用网络结构提升检索性能,研究人员提出了算法分子网络。该方法对top-k查找的初始结果进行重新排序,排序依据结合了原始的光谱相似度(改进匈牙利距离,权重80%)和基于图拓扑的PWRA得分(权重20%),后者利用邻域内共享节点的结构相似性进行加权。
结果表明,对于初始排名低效(ntop3< 0.8)的查询,重新排序后,top-3的平均混合相似度相对提高了18.7%,结构效率提高了26.6%。以一个类固醇查询为例,top-k查找返回的前几名候选物因大量脂肪族C-H信号重叠(“甾醇包络”现象)而无法正确匹配骨架,而算法分子网络则将两个含有正确骨架的优秀匹配(原本排名第30和66位)提升至top-3。这证明了算法分子网络能够通过邻域共识,有效纠正因光谱重叠和数据集稀释导致的错误排名,尤其在处理复杂、密集的HSQC光谱时优势明显。
本研究通过系统性的分析证实,单纯依靠HSQC光谱的 pairwise 比较存在固有的不确定性上限,传统的top-k数据库检索方法在结构解析效率和准确性方面面临挑战,尤其是在处理大规模光谱库或新颖化学结构时。HSQC分子网络的引入,标志着NMR数据分析范式从孤立比较向利用网络化、上下文关联信息转变的重要一步。它通过光谱间的传递性关系,为注释传递、去重复和结构候选物的置信度评估提供了强大工具。而算法分子网络则进一步将图论思想融入排名过程,显著提升了在复杂情况下识别正确结构候选物的能力。
这项工作为从事天然产物发现、非靶向代谢组学和药物研发的科研人员提供了实用的解决方案,能够显著加速HSQC光谱的解读过程,降低对专家经验的过度依赖。展望未来,将HSQC分子网络与MS2分子网络进行多模态融合,构建混合网络,有望为化学空间提供更全面、互补的实验数据视图,从而进一步提升代谢物鉴定的覆盖范围和置信度,推动化学生物学和精准医学的发展。尽管当前方法依赖于模拟光谱且在计算上要求较高,但它为最终实现基于实验数据的高通量、非靶向结构解析奠定了坚实的基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号