FIORA:从单碎片化事件预测化合物质谱,助力代谢组学突破

《Nature Communications》:

【字体: 时间:2025年03月08日 来源:Nature Communications

编辑推荐:

  在非靶向代谢组学中,化合物鉴定受限于光谱参考库的不完整。研究人员开展了名为 FIORA(Fragment Ion Reconstruction Algorithm)的开源图神经网络研究。结果显示,FIORA 在预测质量上超越现有算法,还能预测保留时间等。这为代谢物鉴定和光谱库扩充带来新突破。

  在生命科学和医学研究的广阔领域中,代谢组学就像一把神奇的钥匙,试图解锁生命代谢过程的奥秘。非靶向代谢组学旨在无偏见地探索生物系统中的代谢物,这对于推进精准医学和发现生物标志物至关重要。然而,目前它却遭遇了重重困境。从串联质谱中识别化合物,是代谢组学研究的关键一环,可现有的光谱参考库并不完整。这就好比在拼图游戏中,缺失了许多关键的拼图块,使得大量的质谱数据无法准确匹配和注释,这些无法识别的信号被形象地称为代谢组学中的 “暗物质”。尽管过去十年间,科学家们开发了多种算法尝试直接从质谱推断化合物身份,如 CSI:FingerID、MS - FINDER 等,但 “未知” 化合物的识别率依旧很低。例如在 2016 年和 2022 年的 CASMI 挑战中,这些算法的召回率分别最高只有 34% 和低于 30% 。为了改善这种状况,不少研究团队尝试从分子结构构建理论产物离子光谱,以此扩充光谱库。但由于高质量训练数据稀缺,精确预测 MS/MS 光谱仍是一个巨大的挑战。在这样的背景下,为了攻克这些难题,来自德国联邦材料研究与测试研究所(Federal Institute for Materials Research and Testing,BAM)、柏林自由大学(Freie Universit?t Berlin)等机构的研究人员开展了一项重要研究。他们开发了一种名为 FIORA(Fragment Ion Reconstruction Algorithm)的开源图神经网络,用于模拟串联质谱。研究结果显示,FIORA 在预测质量上超越了如 ICEBERG 和 CFM - ID 等当前最先进的碎片化算法。同时,它还能够预测保留时间(Retention Time,RT)和碰撞截面(Collision Cross Section,CCS)等额外特征。该研究成果发表在《Nature Communications》上,为代谢组学研究带来了新的曙光。
研究人员为开展这项研究,运用了多个关键技术方法。在数据处理方面,他们从 NIST’17、MS - DIAL 和 MSnLib 三个光谱库以及 2016 年和 2022 年的 CASMI 挑战中收集数据,并进行了细致的预处理,包括数据格式和单位的统一、筛选有效数据等。模型构建上,采用图神经网络,将分子结构表示为图,把键断裂作为边属性预测任务,通过学习分子键周围的局部邻域来推断碎片离子概率。评估过程中,使用余弦相似性等指标来衡量预测光谱与真实光谱的相似程度。
下面来看具体的研究结果:
  • 碎片化方法概述:FIORA 的核心是通过预测分子在串联质谱碎片化过程中的键断裂来间接预测质谱。它将键断裂视为图中边的去除,以此模拟碎片离子的产生。同时,还利用图网络模块学习分子图嵌入,进而预测 RT 和 CCS 值,为化合物鉴定提供了更多维度的信息。
  • 模型选择:研究人员对不同的图网络架构进行了测试,发现图卷积网络(Graph Convolutional Network,GCN)和关系图卷积网络(Relational Graph Convolutional Network,RGCN)在预测性能上优于基于注意力的网络(如 GATs 和 Transformers)。最终选择了深度为 6 的 RGCN 进行后续的基准测试。
  • 光谱预测质量:与 CFM - ID 和 ICEBERG 相比,FIORA 在大多数测试数据集上,预测的 MS/MS 光谱与参考测试光谱的中位数余弦相似性最高,相对提升幅度从 10% 到 49% 不等。不过在 CASMI 22 数据集上,所有算法的余弦得分都较低。排除前体峰后,FIORA 在大多数数据集上仍优于其他软件,但优势有所减小。这表明 FIORA 在预测前体强度方面具有优势,且碰撞能量对其预测有重要影响。
  • FIORA 对不同化合物的适应性:研究发现,FIORA 对结构差异较大的化合物具有较好的泛化能力。当化合物与训练集的 Tanimoto 相似性在 0.6 - 1 之间时,其预测质量稳定;在 0.2 - 0.3 之间时,虽然预测性能有所下降,但仍保持相对稳健。此外,FIORA 在不同化合物类别上的预测质量也很稳定。通过对化合物超类的分析发现,其分子图嵌入能形成有意义的结构簇,反映出化合物的结构关系。
  • 保留时间和碰撞截面预测:FIORA 能够预测 RT 和 CCS 值。在 RT 预测方面,大部分预测值在 30 秒偏差内,值为 0.70,优于仅基于 logP 值的线性模型。在 CCS 预测上,大部分预测值误差在 10% 以内,且优于基于前体的线性回归模型。
  • GPU 加速带来的速度提升:GPU 加速使得 FIORA 的运行速度大幅提高,比在 CPU 上运行快约 30 倍,能够在五分钟内预测约 10,000 个光谱。相比之下,FIORA 在 GPU 上的训练和预测速度远超 CFM - ID 和 ICEBERG。
  • 单步碎片化的影响:尽管 FIORA 表现出色,但单步碎片化是其明显的局限性。研究表明,其预测性能在很大程度上取决于峰值强度覆盖范围。对于峰值注释率高、强度覆盖范围大的数据集(如 CASMI 16),FIORA 能模拟出高质量光谱;而对于像 CASMI 22 这样覆盖范围低的数据集,预测质量则较差。
在研究结论和讨论部分,研究人员指出,实验光谱库的不完整性使得计算机模拟光谱成为重要补充。FIORA 通过基于局部分子邻域建模键解离,显著提高了碎片强度预测。虽然它的碎片集比现有算法小,但在大多数测试数据集中余弦相似性得分更高。此外,FIORA 能够结合多种协变量,在预测负谱时性能提升更为明显,且对不同化合物类别和结构差异较大的化合物具有良好的泛化能力。同时,它还能学习有意义的分子图嵌入,用于预测其他 MS 相关属性,如 RT 和 CCS 值。不过,FIORA 目前受限于单步碎片化,未来需要进一步扩展到多碎片化。总体而言,FIORA 在强度预测质量和分子结构建模方面代表了当前的先进水平,为代谢组学研究提供了新的有力工具,有望推动非靶向代谢组学在精准医学和生物标志物发现等领域取得更大的进展。
婵°倗濮烽崑娑㈡倶濠靛绠熼柨鐕傛嫹 限量版“Orbitrap480积木”——基础科研有奖互动

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊閳规儳浜鹃柣鐔煎亰濡插湱鈧鎸哥€涒晝鈧潧銈搁弫鍌炴倷椤掍焦鐦庨梺璇插缁嬫帡宕濋幒妤€绀夐柣鏃傚帶杩濇繝鐢靛Т濞茬娀宕戦幘鎰佹僵鐎规洖娲ㄩ悾铏圭磽閸屾瑧顦︽俊顐g矒瀹曟洟顢旈崨顖f祫闂佹寧绻傞悧鎾澄熺€n喗鐓欐繛鑼额嚙楠炴﹢鏌曢崶銊ュ摵鐎殿噮鍓熼獮宥夘敊閻e本娈搁梻浣藉亹閻℃棃宕归搹顐f珷闁秆勵殕椤ュ牓鏌涢幘鑼槮濞寸媭鍨堕弻鏇㈠幢濡ゅ﹤鍓遍柣銏╁灡婢瑰棗危閹版澘顫呴柣娆屽亾婵炲眰鍊曢湁闁挎繂妫欑粈瀣煃瑜滈崜姘┍閾忚宕查柛鎰ㄦ櫇椤╃兘鏌ㄥ┑鍡欏ⅵ婵☆垰顑夐弻娑㈠箳閹寸儐妫¢梺璇叉唉婵倗绮氶柆宥呯妞ゆ挾濮烽鎺楁⒑鐠団€虫灁闁告柨楠搁埢鎾诲箣閿旇棄娈ュ銈嗙墬缁矂鍩涢弽顓熺厱婵炲棙鍔曢悘鈺傤殽閻愬弶鍠橀柟顖氱Ч瀵噣宕掑Δ浣规珒

10x Genomics闂備礁鎼崐鐟邦熆濮椻偓楠炴牠鈥斿〒濯爄um HD 闁诲孩顔栭崰鎺楀磻閹剧粯鐓曟慨妯煎帶閻忕姷鈧娲滈崰鎾舵閹烘骞㈡慨姗嗗墮婵啴姊洪崨濠傜瑨婵☆偅绮嶉妵鏃堝箹娴g懓浠㈤梺鎼炲劗閺呮粓鎮鹃柆宥嗙厱闊洤顑呮慨鈧┑鐐存綑濡粓濡甸幇鏉垮嵆闁绘ḿ鏁搁悡浣虹磽娴e憡婀版俊鐐舵铻為柛褎顨呯粈鍡涙煕閳╁啞缂氶柍褜鍏涚划娆撳极瀹ュ鏅搁柨鐕傛嫹

婵犵數鍋涘Λ搴ㄥ垂閼测晜宕查悗锝庡亞閳绘棃鎮楅敐搴″箺缂佷胶娅墂ist闂備線娼уΛ妤呮晝閿濆洨绠斿鑸靛姇濡ɑ銇勯幘璺轰粶缂傚秳绶氶弻娑㈠冀閵娧冣拡濠电偛鐗婇崢顥窱SPR缂傚倷鐒︾粙鎺楁儎椤栫偛鐒垫い鎺嗗亾妞わ缚鍗抽幃褔宕妷銈嗗媰闂侀€炲苯澧村┑鈥愁嚟閳ь剨缍嗛崜姘跺汲閳哄懏鍊垫繛鎴炵懃婵啴鏌涢弮鎾村

闂備礁鎲¢〃鍡椕哄⿰鍛灊闊洦绋掗崵鍕煟閹邦剦鍤熼柕鍫熸尦楠炴牠寮堕幋鐘殿唶闂佸憡鐟ュΛ婵嗩潖婵犳艾惟闁靛绲煎ù鐑芥煟閻樿京鍔嶇憸鏉垮暣閹儵鏁撻敓锟� - 婵犵數鍎戠徊钘夌暦椤掑嫬鐭楅柛鈩冡缚椤╂煡鏌涢埄鍐惧毀闁圭儤鎸鹃々鐑藉箹鏉堝墽绉甸柛搴㈠灥閳藉骞橀姘濠电偞鍨堕幖鈺傜濠婂啰鏆﹂柣鏃囨绾惧ジ鏌涢埄鍐闁告梹甯¢幃妤呭捶椤撶偘妲愰梺缁樼⊕閻熝囧箯鐎n喖绠查柟浼存涧閹線姊洪崨濠傜濠⒀勵殜瀵娊鎮㈤悡搴n唹濡炪倖鏌ㄩ悘婵堢玻濞戙垺鐓欓悹銊ヮ槸閸婂鎮烽姀銈嗙厱婵炲棙锚閻忋儲銇勯銏╁剶鐎规洜濞€瀵粙顢栭锝呮诞鐎殿喗鎮傞弫鎾绘晸閿燂拷

濠电偞鍨堕幐鎼侇敄閸緷褰掑炊椤掆偓杩濇繝鐢靛Т鐎氼噣鎯屾惔銊︾厾鐎规洖娲ゆ禒婊堟煕閻愬瓨灏﹂柟钘夊€婚埀顒婄秵閸撴岸顢旈妶澶嬪仯闁规壋鏅涙俊铏圭磼閵娧冾暭闁瑰嘲鎳庨オ浼村礃閵娧€鍋撴繝姘厸閻庯綆鍋勬慨鍫ユ煛瀹€鈧崰搴ㄥ煝閺冨牆鍗抽柣妯挎珪濮e嫰鏌f惔銏⑩姇闁告梹甯″畷婵嬫偄閻撳宫銉╂煥閻曞倹瀚�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号