从大语言模型到可持续蛋白质:基于多智能体AI与废弃物碳利用的微生物蛋白生产优化研究

【字体: 时间:2025年09月30日 来源:Carbon Capture Science & Technology 10.5

编辑推荐:

  本研究针对可持续蛋白质生产领域知识碎片化、研发效率低的问题,开发了一种基于检索增强生成(RAG)的多智能体AI系统,集成文献检索与信息提取功能,通过微调(fine-tuning)和提示工程(prompt engineering)优化模型性能,显著提升信息提取准确率(平均余弦相似度≥0.89),为废弃物碳捕获与利用(CCU)驱动的微生物蛋白生产提供了高效、智能化的研究工具,对加速可持续蛋白质技术创新具有重要意义。

  
随着全球人口增长和饮食结构变化,蛋白质需求持续攀升,传统动物源蛋白生产却面临碳足迹高、资源消耗大、环境敏感性强的多重挑战。与此同时,食品、饮料等工业部门产生大量未被充分利用的副产物和废弃物,这些碳源若得到合理转化,可成为可持续蛋白质生产的宝贵资源。微生物蛋白(Microbial Protein, MP),又称单细胞蛋白,早在20世纪70年代就已投入工业规模生产,例如利用假丝酵母(Candida)发酵挥发性脂肪酸,或通过甲醇生产“Pruteen”蛋白。尽管植物蛋白(如大豆)的成本竞争一度限制了微生物蛋白的推广,但1985年上市的真菌蛋白(Fusarium venenatum,商品名Quorn?)的成功商业化证明,微生物蛋白在主流食品市场中具有显著潜力。
然而,当前可持续蛋白质研发仍存在诸多瓶颈。首先,微生物蛋白的生产高度依赖纯化碳源(如葡萄糖、甲醇),成分复杂、异质性强的废弃碳源尚未得到规模化应用。其次,细菌蛋白虽产量高(50–80 wt%),但易产生异味;真菌和酵母蛋白(30–50 wt%)虽在传统发酵食品(如印尼天贝、昂葱)中有悠久历史,但其工业化放大仍不成熟。此外,该领域研究高度碎片化,涉及微生物学、生物过程工程、食品系统等多个学科,关键信息(如菌种特性、底物组成、蛋白质产量、代谢特征等)分散在海量文献中,依赖人工提取和整合效率低下且易出错。
为应对这些挑战,来自英国伦敦国王学院营养科学系的研究团队在《Carbon Capture Science & Technology》上发表了一项创新研究,他们设计并实现了一个基于大语言模型(Large Language Models, LLMs)的多智能体人工智能(Multi-Agent AI)系统,专注于支持废弃物碳捕获与利用(Carbon Capture and Utilisation, CCU)驱动的可持续微生物蛋白生产研究。该系统通过两个核心智能体分工协作:文献检索智能体负责从科学文献库中检索与指定微生物菌种相关的论文;信息提取智能体则处理检索到的文献内容,提取关键的生物和化学信息(如蛋白质干重百分比、营养机制、底物类型等)。研究团队进一步对比了微调(fine-tuning)和提示工程(prompt engineering)两种优化策略,评估其对智能体性能的提升效果,并开发了用户界面以方便系统使用,同时初步探索了与化学安全性相关的搜索功能。
为开展本研究,团队运用了几项关键技术方法:首先,利用PubMed Central(PMC)开放获取子集构建文献数据库,并基于Piercy等人(2023)的补充材料手动整理微生物物种特异性数据(涵盖蛋白质干重%、营养机制、底物等),通过Python的PDFMiner库解析PDF文本;其次,设计并实现了文献检索智能体,该智能体通过API访问PubMed,结合领域关键词(如“生长”、“培养”、“发酵”等)扩展查询,并采用相关性评分算法筛选高价值文献;第三,针对信息提取任务,团队对比了GPT-3.5 Turbo、GPT-4o和GPT-4.1等模型性能,最终选择GPT-4.1作为基础模型,并分别通过微调(使用80%-10%-10%的分层训练-验证-测试集)和结构化提示工程(两阶段策略:上下文收割与规范值提取)进行优化;第四,集成毒性筛查模块,通过BioCyc数据库查询微生物代谢网络化合物,并与致突变性数据集交叉比对,识别潜在有毒代谢物;最后,基于Streamlit框架开发了交互式Web界面,支持用户配置查询、可视化结果和查看分析日志。
3.1. 信息提取智能体的最优GPT模型分析
通过比较不同GPT模型在信息提取任务上的性能,研究发现GPT-4.1 (2025-04-14)在不同温度设置和多种句子转换模型(包括all-mpnet-base-v2、all-MiniLM-L6-v2和sentence-t5-base)评估下均表现最佳,平均余弦相似度得分最高,且统计不确定性较低,因此被选作后续优化实验的基础模型。
3.2. 微调信息提取智能体的性能分析
微调显著提升了GPT-4.1模型在测试集上的表现,平均余弦相似度从0.79(基线)提高到0.96(all-mpnet-base-v2评估),增幅达22%,且所有评估模型均显示相似度≥0.94。微调过程中,损失和准确度指标持续改善,模型收敛稳定,表明该方法能有效增强领域特定任务的执行能力。
3.3. 提示工程信息提取智能体的性能分析
采用两阶段提示架构(上下文收割+规范值提取)后,GPT-4.1的平均余弦相似度从0.79提升至0.92(all-mpnet-base-v2),不确定性显著降低。案例研究显示,提示工程能准确处理含目标信息的文献(如小球藻蛋白生产数据),并正确识别无关文献(如毒性研究),有效避免了模型幻觉问题。
3.4. 微调与提示工程的对比
微调在平均性能上略优于提示工程(余弦相似度0.96 vs. 0.92),但统计不确定性较高;提示工程则具有更低的方差和更好的可转移性。两者均能显著提升模型表现,且互补性强——微调适合对准确性要求极高的场景,而提示工程更易于维护和跨领域应用。
3.5. 代谢途径的毒性筛查
以小球藻(Chlorella vulgaris)为例,从BioCyc数据库检索到745种代谢化合物,其中129种已注册,22种被识别为有毒物质。该功能增强了系统在生物安全性评估方面的实用性,为早期菌种筛选和过程设计提供了重要参考。
3.6. 未来展望
研究建议后续工作沿三个方向推进:优化模型(通过领域特定数据进一步微调)、开发任务感知评估指标(如定量输出的绝对误差),以及迁移至开源LLMs(如Llama-2、DeepSeek-V3)以提升透明度和可控性。此外,应加强系统与实验研究的整合,指导菌种筛选、工艺优化和毒性风险评估。
本研究成功证明,基于LLMs的多智能体AI系统能有效支持可持续蛋白质生产领域的知识合成与决策优化。通过对比微调和提示工程两种策略,团队不仅实现了信息提取准确率的显著提升(最高增幅25%),还开发了用户友好的交互界面和毒性筛查模块,为研究人员和工程师提供了高效、可靠的智能工具。该框架有望加速CCU驱动的微生物蛋白技术研发,促进循环生物经济模式的实现,同时为人工智能在生物制造领域的应用提供了重要范例。未来,通过整合更丰富的领域数据、开源模型和高级规划智能体,该系统可进一步扩展至更复杂的生物过程优化和跨学科研究场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号