基于大语言模型平台发现多样且高质量的 mRNA 加帽酶

【字体: 时间:2025年04月10日 来源:SCIENCE ADVANCES 11.7

编辑推荐:

  在合成生物学和生物工程中,挖掘高质量遗传元件至关重要。mRNA 加帽是 mRNA 生产关键步骤,现有加帽酶存在不足。研究人员利用 SYMPLEX(基于大语言模型的合成生物部件挖掘平台)挖掘 mRNA 加帽酶,发现多种候选酶,部分活性优异,为 mRNA 生物技术发展提供助力。

  在生命科学的研究领域中,mRNA 的相关研究一直是热点话题。mRNA 在细胞的生命活动中起着关键作用,它就像细胞内的 “信使”,携带遗传信息,指导蛋白质的合成。然而,在 mRNA 的加工过程中,加帽这一关键环节却面临着诸多挑战。
mRNA 加帽(mRNA capping)是真核生物转录后修饰的关键步骤,对 mRNA 的稳定性、翻译效率以及免疫原性等方面有着重要影响。在 mRNA 疫苗生产中,加帽效率和质量直接关系到疫苗的效果和安全性。目前,商业上用于体外酶促加帽的只有痘苗病毒 D1 和 D12 双蛋白这一种 mRNA 加帽酶(CE),但它存在效率低、成本高的问题。而且,现有加帽酶的不足严重限制了 mRNA 生物技术的发展。同时,由于加帽酶基因来源复杂、进化迅速,传统的基于序列同源性或专家知识的基因挖掘方法难以全面、有效地发现新的加帽酶基因。在这样的背景下,开展新的加帽酶挖掘研究迫在眉睫。

为了解决这些问题,研究人员开展了一项旨在挖掘新型 mRNA 加帽酶的研究。研究团队利用自行设计的 SYMPLEX(synthetic biological part mining platform by large language model–enabled knowledge extraction,基于大语言模型的合成生物部件挖掘平台),从生物医学文献和数据库中进行全面的基因挖掘。该研究成果发表在《SCIENCE ADVANCES》上,为 mRNA 生物技术的发展带来了新的希望。

研究人员在这项研究中运用了多种关键技术方法。首先是自然语言处理(NLP)技术,通过对生物医学文献进行挖掘,获取与 mRNA 加帽酶相关的信息。其次是基于大语言模型(LLMs)的文本挖掘技术,利用 LLMs 强大的理解和生成能力,对生物文本进行深入分析。此外,还运用了生物信息学分析方法,对挖掘到的基因进行功能注释、分类和筛选。在实验验证阶段,采用了体内和体外实验技术,对筛选出的候选加帽酶基因进行活性检测。

下面来具体看看研究结果:

  • SYMPLEX 平台概述:SYMPLEX 平台的运行分为三个主要步骤。第一步,用户输入期望的功能描述,平台利用半监督论文检索算法收集相关文献,并从文献中提取基因及其功能注释。第二步,通过语义对齐将文本注释与数据库信息整合,运用统计推断生成结构化知识图谱和基因图谱。第三步,对基因进行全面的计算机模拟评分,根据用户设计需求进行筛选,生成候选基因集用于实验评估。
  • 半监督文献检索和细粒度基因及功能提取:在文献检索方面,针对关键词的多义性和模糊性问题,研究人员设计了一种独特的扩展 - 收缩策略。通过该策略,系统先尽可能多地检索论文,然后对引用结构进行改进的社区检测算法,进行粗粒度主题提炼。用户选择感兴趣的主题后,再通过图卷积网络(GCN)进行精细分类,缩小提取论文的范围。在基因和功能提取方面,运用命名实体识别(NER)和关系提取(RE)技术,对基因、物种和生物功能进行识别和提取。为了提高功能 NER 的准确性,还训练了独立的语言模型。实验结果表明,该算法在独立测试数据集上表现可靠(F2=0.854)。
  • 专家知识注入和结构化知识推理:通过元素映射将非结构化的基因和功能实体映射到相应的受控词汇表(CV)中,如 NCBI 基因 ID 和基因本体(GO)术语,从而注入专家知识。基于此,生成 GO 网络和知识图谱,对基因功能进行深入分析。通过对基因的综合筛选,得到了包含 16,685 类基因的二级候选集 CII,这些基因在分类学上覆盖范围广泛,包括病毒和真核生物等。同时,通过序列同源性聚类算法和功能域分析,揭示了加帽酶的进化轨迹和模块化特性。
  • 筛选出的高质量候选酶在体内外显示加帽活性:根据合成生物学设计的理想部件原则(DC2原则),从 CII中筛选出具有全部 RNA - 三磷酸酶(TPase)、鸟苷酸转移酶(GTase)和甲基转移酶(MTase)功能的基因,经过多轮筛选,最终选择 46 个基因组成实验评估集 T1。实验结果显示,在哺乳动物细胞系(中国仓鼠卵巢细胞 CHO 和人胚肾细胞 HEK 293T)中,14 个基因表现出显著的加帽活性;在酿酒酵母(Saccharomyces cerevisiae)中,5 个基因的加帽活性比阳性对照高约四倍;在体外实验中,MRV_5 和 MRV_6 这两个基因的加帽效率比商业痘苗加帽酶(VCE)高两倍。
  • 多样的加帽酶基因揭示的设计见解:通过对丰富多样的加帽酶基因分析发现,尽管序列存在差异,但预测结构主要集中在两种配置。同时,在保守结构中发现了保守残基,这些残基可能影响加帽酶的功能。通过比较分析不同基因,有助于区分关键的结构和序列特征,为合成生物部件工程提供参考。

在研究结论和讨论部分,SYMPLEX 平台成功挖掘出多种具有潜在生物技术应用价值的 mRNA 加帽酶,显著扩展了高质量合成生物部件的多样性。这些发现为 mRNA 酶促加帽提供了新的候选酶,有助于推动 mRNA 疫苗制造和基于 mRNA 的基因疗法研究。此外,该平台结合文献和数据库信息,通过统计交叉验证进行自动化、基于证据的基因评级和推荐,在信息检索和基因功能注释方面具有优势。尽管自然语言处理过程中存在噪声,但通过专家知识注入和下游统计推断有效降低了影响。与其他挖掘方法相比,SYMPLEX 筛选出的高质量候选酶在序列空间和分类学上分布更广泛、更无偏。总之,这项研究为合成生物学和生物工程领域的基因挖掘提供了新的范式和有力工具,具有重要的理论和实践意义。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号