MotifMol3D:融合分子局部特征与三维结构的代谢通路预测新框架

【字体: 时间:2025年04月22日 来源:Journal of Cheminformatics 7.1

编辑推荐:

  针对代谢物通路分类预测中样本量小、模型可解释性差的难题,上海中医药大学团队开发了融合分子局部特征(motif)、图注意力网络(GAT)和三维结构信息(TDB)的MotifMol3D模型。该模型在KEGG数据库5,698个分子的11类代谢通路预测中,精准度(82.86%)、召回率(79.62%)和F1值(81.21%)均超越现有方法,并通过基序分析揭示了特定通路分子的结构特征,为代谢组学分析提供开源工具(GitHub可获取)。

  

在生命科学领域,代谢物如同细胞中的"化学指纹",它们的动态变化直接反映疾病进程和生理状态。然而,当科学家们发现一个未知代谢物时,如何快速确定它参与的代谢通路却成为棘手难题。传统湿实验方法耗时费力,而现有计算模型又面临小样本学习瓶颈和"黑箱"困境——就像试图用模糊的地图导航复杂的代谢迷宫。

上海中医药大学的研究团队决心破解这一困局。他们注意到,分子中特定的功能基团(motif)可能隐藏着通路分类的"密码",而现有模型却忽略了这些局部特征与三维结构的协同作用。于是,一项名为MotifMol3D的创新研究应运而生,相关成果发表在《Journal of Cheminformatics》上。

研究团队首先从KEGG数据库收集了5,698个参与11类代谢通路的小分子,包括从碳水化合物代谢到异生物质降解等广泛类型。通过独创的"分子拼图"策略,将化合物切割为芳香环、侧链键等结构单元,并采用TF-IDF算法筛选出最具通路特异性的7个关键motif。这些局部特征与三维拓扑距离描述符(TDB)、分子性质描述符融合,再通过图注意力网络(GAT)提取全局图特征,最终经XGBoost集成学习实现通路分类。

关键技术方法
研究采用多模态特征融合框架:①基于SMILES字符串的分子motif切割与TF-IDF筛选;②原子属性(如范德华体积、电负性)构建的3D-TDB描述符;③4头自注意力机制处理motif嵌入;④双层GAT网络聚合节点-边信息;⑤XGBoost优化解决类别不平衡问题。所有实验基于PyTorch 1.8.1实现,使用NVIDIA Tesla V100 GPU加速。

模型性能验证
在十折交叉验证中,MotifMol3D的F1值(81.21%)显著优于传统机器学习(RF 72.88%)和深度学习方法(GAT-based 74.81%)。特别值得注意的是,在样本最少的核苷酸代谢通路(仅156个分子)中仍保持稳定表现,证明其小样本适应能力。

基序分析揭示生物学意义
研究团队发现不同通路存在特征性motif组合:能量代谢通路中"OP"(磷酸基)和"OS"(硫酸基)高频出现,与氧化磷酸化等能量转换过程吻合;核苷酸代谢中"c1cncnc1"(嘧啶环)和"c1c[nH]cn1"(嘌呤环)作为核酸碱基核心结构被有效捕获。这些发现为模型预测提供了生化层面的解释依据。

外部验证展现应用潜力
针对KEGG新增的萜烯降解和类黄酮降解通路,模型对含特征骨架的分子(如樟脑衍生物、黄酮苷元)预测准确率达85.7%,但对深度降解产物(如开环结构)识别有限。这提示模型更擅长捕捉保守的结构特征,也为后续改进指明了方向。

这项研究的意义不仅在于创造了当前最精准的代谢通路预测工具(GitHub已开源),更开创性地证明了分子局部结构特征与特定代谢通路的关联规律。就像为代谢迷宫绘制了带标记的立体地图,MotifMol3D既帮助研究者快速定位未知代谢物的可能通路,又通过可解释的motif分析揭示分子功能的结构基础。未来整合酶反应特征等更多维度信息,或将进一步解锁代谢网络的深层奥秘。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号