
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Prot2Chat:基于早期多模态融合的蛋白质问答大语言模型创新研究
【字体: 大 中 小 】 时间:2025年07月30日 来源:Bioinformatics 4.4
编辑推荐:
研究人员针对蛋白质功能理解中多模态信息整合不足、分类方法灵活性差等问题,开发了Prot2Chat框架。该研究通过改进ProteinMPNN实现序列与结构早期融合,结合文本感知适配器压缩蛋白质信息为虚拟令牌,利用LoRA技术微调LLM生成高质量回答。实验表明该模型在BLEU-2(35.85)和ROUGE-L(50.51)指标上显著优于基线,为零样本蛋白质功能预测提供了新范式。
在生物技术飞速发展的今天,蛋白质作为生命活动的执行者,其序列与结构的功能解析始终面临重大挑战。尽管高通量测序和AlphaFold 3等工具提供了海量数据,但现有方法存在"信息孤岛"现象:序列与结构特征分离处理导致模态割裂,传统分类框架难以应对开放式问答,而参数庞大的模型又制约了实际应用。更关键的是,当前缺乏系统评估蛋白质问答系统的标准,使得像AFcluster揭示的"同序列不同构象"等复杂生物学现象难以被准确解读。
苏州大学计算机科学与技术学院的研究团队在《Bioinformatics》发表的研究中,创新性地提出Prot2Chat框架。该工作通过三重突破解决上述痛点:首先改造ProteinMPNN实现零参数消耗的序列-结构早期融合;其次设计文本感知适配器,将蛋白质信息压缩为LLM可理解的虚拟令牌;最后采用LoRA技术仅训练109M参数即实现模型优化。这种"结构引导序列,文本驱动压缩"的策略,使模型在Mol-Instructions数据集上取得ROUGE-1 57.21的突破性成绩,较Evola-10B提升96.6%。
关键技术包括:1)利用9个ProteinMPNN模型并联编码多维度蛋白质特征;2)构建含256个可学习查询的跨模态注意力机制,实现问题导向的信息压缩;3)采用LoRA(r=8,α=16)微调LLaMA3-8B的q_proj/v_proj模块。实验使用40万条Mol-Instructions和2.5万条UniProtQA数据,通过1600小时GPU训练验证效果。
【序列与结构融合编码】
通过修改ProteinMPNN的Decoderlayer模块(公式5),将序列嵌入S直接初始化节点特征hV(公式6),实现结构坐标E与序列S的早期融合。这种改造使1152维特征能同时反映空间构象和残基化学特性。
【文本感知信息压缩】
创新性引入问题向量Qht(公式8),通过多头注意力(公式9)将蛋白质特征Xproj压缩为与问题相关的虚拟令牌。动态位置编码(PE)的加入使模型能捕捉氨基酸序列顺序信息。
【评估体系构建】
除传统BLEU/ROUGE指标外,首创结合KIMI大模型评估和专家人工评分。在UniProtQA零样本测试中,模型生成答案与标准描述的匹配度达1.49平均排名(1-4级),显著优于BioMedGPT的3.18。
该研究的核心价值在于:1)首次实证早期融合策略在蛋白质问答中的优越性,较晚融合方案提升7.8%的ROUGE-L;2)构建的适配器模块仅106M参数即可实现跨模态对齐,为生物医学LLM轻量化提供范例;3)开源平台支持PDB文件直接输入,使结构生物学家能通过自然语言交互探索蛋白质功能。正如文中图1所示,这种"结构→序列→文本"的级联融合机制,为破解"序列-功能"非线性关系提供了新工具。
研究也揭示若干待解问题:如多模态特征在1152维空间的解释性仍有提升空间,且当前训练数据偏重单一物种。未来工作可探索将冷冻电镜密度图等更多模态纳入融合框架,进一步拓展模型在复杂生物系统中的应用边界。
生物通微信公众号
知名企业招聘