人工智能驱动的基因编码天然成分库:中药大数据挖掘与药物发现新范式
《The Innovation》:Artificial intelligence-curated repository of gene-encoded natural diverse components from herbal medicines
【字体:
大
中
小
】
时间:2025年12月02日
来源:The Innovation 33.2
编辑推荐:
本研究针对现有天然成分数据库分类局限、数据分散的问题,开发了全球首个基于基因编码框架的天然成分综合数据库GNDC。通过整合多组学数据与AI分析工具,该研究系统收录了2.34亿个天然成分,涵盖次生代谢物、小肽、小RNA和碳水化合物四大类,实现了成分发现数量10倍提升,为从"经验驱动"到"大数据驱动"的药物发现模式转变提供了重要平台。
在药物研发领域,天然成分始终是重要的先导化合物来源。然而,传统天然产物研究面临着一个核心困境:现有数据库大多局限于次生代谢物,缺乏对基因编码成分(如小肽、小RNA)的系统整合,且数据分散在不同平台,难以实现全面分析。这种碎片化现状严重阻碍了研究人员对生物体内完整生化景观的认知,特别是对药用植物这一宝贵资源库的深入挖掘。
针对这一挑战,成都中医药大学陈士林教授团队在《The Innovation》发表了突破性研究成果。他们成功构建了全球首个基因编码天然多样成分数据库GNDC(Gene-encoded Natural Diverse Components Repository),通过人工智能技术整合多组学数据,系统收录了超过2.34亿个天然成分,为天然产物研究提供了前所未有的资源平台。
研究团队建立了定制化分析流程:通过基因组六框翻译和转录组数据整合预测小肽;利用Rfam数据库和INFERNAL软件鉴定小RNA;采用BioNavi-NP分析次生代谢物合成途径;基于NPClassifier实现成分分类;运用ADMET-AI预测药代动力学性质;通过DeepICER预测成分对基因表达的扰动特征。数据涵盖八国药典收录物种的核基因组和细胞器基因组。
GNDC包含四个专业子数据库:HerbalMDB收录2,321,763个次生代谢物,HerbalPDB包含229,772,278个小肽,HerbalRDB文档2,382,463个小RNA,HerbalCDB收集264,564个碳水化合物。以八国药典物种为例,研究人员通过系统发育树可视化展示了这些成分在不同物种中的分布规律,揭示了成分多样性与物种进化关系之间的内在联系。
与现有数据库相比,GNDC展现出显著优势。HerbalMDB相比COCONUT和SuperNatural数据库分别新增1,626,630和1,118,227个独特次生代谢物,增长幅度达234%和92.91%。HerbalPDB中近98%的小肽为新发现条目,且独家提供抗菌活性、血脑屏障通透性等功能注释。HerbalRDB相比本草小RNA图谱新增1,636,078个条目,增长219.20%,在基因组可靠性、物种覆盖广度和注释深度方面均领先。
各子数据库均配备专业分析工具。HerbalMDB支持基于布尔运算的智能查询,可进行结构相似性分析、ADMET性质预测和基因表达扰动特征分析。HerbalPDB提供小肽的理化性质预测和生物活性评估。HerbalRDB实现小RNA靶基因预测和功能注释。HerbalCDB集成多种糖组学分析工具,支持基于符号命名法的糖结构可视化。
以人参(Panax ginseng)为例,GNDC成功鉴定3,265个次生代谢物,其中2,278个为新发现成分。聚类分析显示新发现代谢物在化学空间中形成独特分布。整合基因组、转录组和肽组学数据验证了4,488个高置信度小肽,功能注释显示其参与碳水化合物代谢、ATP结合等关键生物学过程。同时发现22,307个小RNA,显著扩展了原有数据库的覆盖范围。
GNDC通过建立基于分子生物学中心法则的基因编码分类框架,突破了传统结构分类的局限性,实现了天然成分的系统性整合。该平台不仅显著扩展了已知天然成分的化学空间,更重要的是提供了功能注释和生物活性预测的一站式解决方案。尽管在AI预测可靠性、隐蔽基因簇解析等方面仍存在挑战,但GNDC为天然产物研究从"经验驱动"向"大数据驱动"范式转变奠定了坚实基础。未来,通过持续扩大物种覆盖、完善实时更新机制、深化功能验证,这一平台有望在创新药物发现和传统药物现代化研究中发挥关键作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号