-
生物通官微
陪你抓住生命科技
跳动的脉搏
语言模型能解读基因组吗?这一基因解码mRNA能制造更好的疫苗
【字体: 大 中 小 】 时间:2024年04月10日 来源:AAAS
编辑推荐:
普林斯顿大学的研究人员开发了一种基础语言模型来解码mRNA序列并优化这些序列以用于疫苗开发。作为研究分子生物学的一种手段,该工具显示出更广阔的前景。
曾成为头条新闻的人工智能编程软件和通过律师资格考试的人工智能已经学会了阅读另一种类型的文本——基因密码。
这些代码包含了所有生命功能的指令,并遵循与人类语言相似的规则。基因组中的每个序列都遵循复杂的语法和句法,这些结构产生了意义。就像改变几个单词可以从根本上改变一个句子的影响一样,生物序列的微小变化也会对序列编码的形式产生巨大的影响。
现在,由机器学习专家Mengdi Wang领导的普林斯顿大学研究人员正在使用语言模型来定位部分基因组序列,并优化这些序列,研究生物学和改进医学。
在4月5日发表在《自然机器智能》杂志上的一篇论文中,作者详细介绍了一种语言模型,该模型利用其语义表示的能力来设计一种更有效的mRNA疫苗,例如用于预防COVID-19的疫苗。
翻译中的发现
科学家们有一种简单的方法来总结遗传信息的流动。他们称之为生物学的中心法则。信息从DNA到RNA再到蛋白质。蛋白质创造了活细胞的结构和功能。
信使RNA (mRNA)将信息转化为蛋白质,这是最后一步,称为翻译。但是mRNA很有趣。只有一部分保存着蛋白质的编码。其余部分没有翻译,但控制着翻译过程的重要方面。
控制蛋白质生产效率是mRNA疫苗发挥作用的关键机制。研究人员将他们的语言模型集中在那里的未翻译区域,看看他们如何优化效率并改进疫苗。
在对一小部分物种进行模型训练后,研究人员生成了数百个新的优化序列,并通过实验室实验验证了这些结果。最佳序列优于疫苗开发的几个主要基准,包括蛋白质生产的总体效率提高33%。
研究人员表示,即使是少量提高蛋白质生产效率,也会对新兴疗法产生重大推动作用。除了COVID-19, mRNA疫苗还有望预防许多传染病和癌症。
电子和计算机工程教授、该研究的首席研究员Mengdi Wang说,该模型的成功也指出了一种更根本的可能性。通过对少数几个物种的mRNA进行训练,它能够解码核苷酸序列,并揭示一些有关基因调控的新信息。科学家认为,基因调控是生命最基本的功能之一,是解开疾病和紊乱起源的关键。像这样的语言模型可以提供一种新的探索方式。
Wang的合作者包括来自生物技术公司RVAC医药以及斯坦福大学医学院的研究人员。
疾病的语言
这种新模式与目前支持人工智能聊天机器人的大型语言模型不同,只是程度不同,而不是种类不同。他们的模型不是在互联网上数十亿页的文本上进行训练,而是在几十万个序列上进行训练。该模型还经过训练,以纳入有关蛋白质生产的额外知识,包括结构和能源相关信息。
研究小组使用训练好的模型创建了一个包含211个新序列的文库。每个都针对期望的功能进行了优化,主要是提高了翻译效率。这些蛋白质,如COVID-19疫苗针对的刺突蛋白,驱动对传染病的免疫反应。
先前的研究已经创建了语言模型来解码各种生物序列,包括蛋白质和DNA,但这是第一个专注于mRNA非翻译区域的语言模型。除了提高整体效率外,它还能够预测一个序列在各种相关任务中的表现。
Wang说,创建这种语言模型的真正挑战在于理解可用数据的完整背景。训练模型不仅需要具有所有特征的原始数据,还需要这些特征的下游结果。如果一个程序被设计用来过滤垃圾邮件,那么它所训练的每封邮件都将被标记为“垃圾邮件”或“非垃圾邮件”。在此过程中,该模型开发了语义表示,使其能够确定哪些单词序列表示“垃圾邮件”标签。这就是意义所在。
Wang说,只看一个狭窄的数据集,并围绕它建立一个模型,对生命科学家来说是不够的。她需要做一些新的事情。因为这个模型处于生物学理解的前沿,所以她发现的数据到处都是。
“我的部分数据来自一项研究,其中有效率的措施。我的数据集的另一部分来自另一项测量表达水平的研究。我们还从多个资源中收集了未注释的数据。”将这些部分组织成一个连贯而健壮的整体——一个多方面的数据集,她可以用它来训练一个复杂的语言模型——是一个巨大的挑战。
“训练一个模型不仅要把所有这些序列放在一起,还要把到目前为止收集到的标签序列放在一起。这是以前从未有过的。”
知名企业招聘