编辑推荐:
为解决 2D NMR 预测因注释数据有限而面临的挑战,研究人员开展了关于预测 HSQC 交叉峰的研究。他们提出 TransPeakNet 框架,结果显示该框架预测效果佳。这对有机化学等领域的结构解析意义重大,推荐科研读者阅读。
在科学的奇妙世界里,核磁共振(NMR)光谱技术就像一把神奇的钥匙,能够解锁分子结构、电子环境和动力学的秘密。它在化学、环境科学、食品科学、材料科学以及药物研发等众多领域都有着广泛的应用,帮助科学家们探索微观世界的奥秘。
NMR 光谱的核心信息来源于化学位移,不同的化学位移就像是分子的独特 “指纹”,对应着各种功能基团或分子结构,能帮助科学家们推断原子的连接方式和排列顺序。然而,解读 NMR 光谱可不是一件容易的事,通常需要经验丰富的有机化学家凭借专业知识和 “经验法则” 来判断。为了让这个过程更简单高效,科学家们一直致力于通过计算模拟来助力 NMR 光谱的解读。
早期,像 HOSE 代码这样的计算方法尝试通过特定方式预测 NMR 位移值,但效果有限。后来,基于密度泛函理论(DFT)的方法出现了,虽然在某些小分子上取得了一定成果,但它存在不少问题,比如对基础函数的选择要求很高,需要针对每个分子进行细致的手动调整,而且计算过程非常耗时,这大大限制了它在大规模数据集上的应用。
随着科技的发展,图神经网络(GNN)兴起,它在预测分子性质方面取得了不少成功,也被应用到了 NMR 光谱峰值预测中。在一维(1D)NMR 数据预测上,基于 GNN 的模型表现不错,但二维(2D)NMR 光谱的预测却仍然面临着巨大挑战。
二维 NMR 光谱中的异核单量子相干(HSQC)技术,对于解析复杂分子的原子连接性至关重要。它能通过标量耦合相互作用,将氢核与异核(通常是碳或氮)的化学位移关联起来,帮助科学家们深入了解分子的化学键、构象和分子内相互作用。然而,由于缺乏大规模高质量的数据集,以及 HSQC 光谱峰注释过程既费力又耗时,准确预测 HSQC 光谱变得异常困难。即便 1D NMR 光谱有很多注释数据可用于训练模型,但要将这些结果整合起来生成可靠的 2D NMR 数据,简直比登天还难。
为了攻克这些难题,作者[第一作者单位] 的研究人员在《期刊原文名称》上发表了题为《论文原文标题》的论文。他们提出了一种名为 TransPeakNet 的创新框架,这个框架就像是一个智能助手,能够实现从分子结构的简单表示(SMILES)和实验所用溶剂环境直接预测 HSQC 光谱的交叉峰,并同时将每个交叉峰信号与相应的碳 - 质子对关联起来。
研究人员在这个项目中用到了几个关键技术方法。首先是图神经网络(GNN),它就像一个 “结构探测器”,能够对分子特征进行编码,学习原子的嵌入表示,捕捉每个原子的局部和全局化学环境信息。其次是溶剂编码器,它能把溶剂信息转化为独特的特征向量,让模型可以学习溶剂对化学位移的影响。此外,研究人员还采用了多任务预训练(MTT)和无监督转移学习策略。MTT 利用大量注释的 1D NMR 数据对模型进行预训练,让模型掌握原子相互作用和 NMR 信号之间的复杂关系;无监督转移学习则在未标记的 HSQC 数据集上对模型进行优化,提升模型预测和解释 HSQC 光谱的能力。
下面我们来看看这项研究都取得了哪些令人惊喜的成果。
1. HSQC 交叉峰预测和注释的性能
研究人员使用了一个由 500 个分子组成的专家注释测试数据集来评估模型性能,这些分子平均分子量为 398.98 Da,平均含有 56.32 个原子。经过严格筛选,最终得到 479 个高质量注释样本。在化学位移预测方面,模型表现出色,预测 13C 位移的平均绝对误差(MAE)为 2.05 ppm,预测 1H 位移的 MAE 为 0.165 ppm。在注释准确性上,模型在 479 个分子中准确注释了 456 个分子(95.21%)的所有峰。对于剩下 23 个分子,虽然算法注释与专家不完全一致,但仍有 81.56% 的峰注释是相符的。这表明模型在预测和注释 HSQC 交叉峰方面具有很高的准确性和可靠性。
2. 与传统工具的比较
在有机化学领域,模拟 HSQC 光谱对于分析实验数据至关重要,传统工具如 ChemDraw 和 Mestrenova 一直是常用的分析手段。研究人员将 TransPeakNet 模型与这些传统工具进行比较,结果发现模型优势明显。传统工具不仅在将预测结果与实际情况对齐时非常费力,而且随着分子尺寸和复杂性的增加,预测结果不稳定。相比之下,TransPeakNet 模型在不同分子量的分子上都表现得更好,尤其在处理大分子时优势更加突出。
3. 按分子类别进行的性能分析
为了全面评估模型的稳健性和泛化能力,研究人员对测试数据集进行了细分分析。他们选择了基于分子量和糖类存在与否的类别进行研究。结果发现,在预测 HSQC 交叉峰的 1H 位移时,模型在不同分子量组中表现相当,MAE 在 0.16 - 0.19 ppm 之间;在预测 13C 位移时,对中等大小分子的 MAE 为 1.93 ppm,对大分子的 MAE 为 2 ppm,尽管训练数据中大分子比例较小(约 2%),但模型仍展现出良好的泛化能力。在糖类分子预测中,模型同样表现出色,预测 13C 位移的 MAE 为 1.78 ppm,预测 1H 位移的 MAE 为 0.16 ppm,证明了模型在处理复杂糖类结构时的稳健性。
4. 预训练和微调的效果
模型在经过 MTT 在 1D NMR 数据集上预训练后,取得了一定的验证性能,但直接应用于 HSQC 测试数据集时,误差明显增加。这是因为 1D NMR 数据集和 HSQC 数据集在数据分布、处理方式以及溶剂信息等方面存在差异。不过,预训练为模型的微调打下了坚实基础。通过无监督转移学习对模型进行微调后,误差逐渐减小,到第五次迭代时,模型性能基本收敛,最终预测 1H 和 13C 位移的 MAE 分别达到 0.165 ppm 和 2.05 ppm。在这个过程中,模型对溶剂效应和复杂 C - H 相互作用有了更深入的理解。
总的来说,这项研究通过开发一种新的机器学习框架,成功解决了 HSQC 光谱预测中的两个关键难题:注释数据稀缺和数据收集困难。研究人员结合 GNN 和溶剂编码器构建的模型,利用两阶段的训练策略,在 HSQC 光谱预测和交叉峰注释方面取得了优异的成果。模型不仅在不同分子类别中表现稳定,而且显著优于传统方法,展现出强大的泛化能力。
未来,研究人员计划进一步优化模型,开发能够考虑 3D 结构信息的 3D - GNN 模型,以处理更多类型的 2D NMR 光谱,如相关光谱(Correlation Spectroscopy)和核 Overhauser 效应光谱(Nuclear Overhauser Effect Spectroscopy),这将大大拓宽模型的应用范围,为化学分析领域带来更强大的工具,帮助科学家们更深入地探索分子世界的奥秘,在有机化学、药物研发、天然产物研究等众多领域发挥重要作用。
濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙
10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�
婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷
闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�
濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷