Aligning large language models and geometric deep models for protein representation:解锁蛋白质研究新视角,探寻结构与功能关联密码

【字体: 时间:2025年04月12日 来源:Patterns 6.7

编辑推荐:

  推荐阅读!本文聚焦蛋白质领域,探究大语言模型(LLMs)与几何深度学习模型(GDMs)的对齐问题。通过多方面实验分析,揭示影响对齐的因素,提出改进策略,为构建更高效的蛋白质多模态大语言模型(MLLMs)提供关键指引,助力生物研究与药物开发。

  ### 研究背景
在计算生物学领域,蛋白质多模态大语言模型(MLLMs)的出现是一项重大突破。它能够整合蛋白质的结构和文本数据,为蛋白质分析带来新的方法。像 ProtChatGPT、ProteinChat 和 ProteinGPT 等模型,可处理蛋白质序列和结构信息,在药物研发和生物技术等领域具有重要应用价值。
在这些蛋白质聚焦的 MLLMs 中,潜在表示对齐是整合不同蛋白质数据类型的关键技术。蛋白质可通过文本描述、图结构和三维(3D)坐标数据等多种模态表示。大语言模型(LLMs)擅长处理文本描述,几何深度学习模型(GDMs)则专注于捕捉蛋白质的 3D 结构信息。然而,当前实现不同蛋白质模态之间的有效对齐仍面临挑战,缺乏对多模态对齐原则的系统理解。

研究目的


本研究旨在探索 LLMs 和 GDMs 在蛋白质领域的对齐问题,具体从三个方面展开:一是从模型角度分析不同模型对的对齐性能及相关性;二是从蛋白质角度研究哪些蛋白质在模型间对齐良好或不佳;三是探索提高对齐效果的策略,包括 GDM 表示维度、投影头复杂度以及 LLMs 在蛋白质特定数据上的微调等方面的影响 。

研究方法


  1. 模型选择:选取四个蛋白质领域的前沿 GDMs(GAT、ScanNet、GVP 和 GearNet)和三个预训练 LLMs(Gemma2 - 2B、LLaMa3.1 - 8B 和 LLaMa3.1 - 70B)。这些模型具有不同的嵌入维度,为实验提供了多样性。
  2. 数据集准备:从 RCSB PDB 数据库下载 20,000 个蛋白质样本,每个样本包含文本描述(来自 FASTA 文件)和 3D 结构图形模态(来自 PDB 文件)。将数据集随机分为训练集(80%)、验证集(10%)和测试集(10%)。
  3. 数据预处理
    • FASTA 预处理:将 FASTA 文件转换为 LLMs 可理解的文本描述,去除氨基酸序列,保留关键信息如蛋白质 ID、链数、分子名称、生物体和序列长度等。对于多链蛋白质,使用 GPT - 4o 生成准确描述。
    • PDB 预处理:针对不同的 GDM 模型,对 PDB 文件进行不同处理。GearNet 和 ScanNet 可直接处理 PDB 文件;GAT 从 PDB 文件解析节点特征和图结构;GVP 将 PDB 数据转换为特定的 JSON 格式。

  4. 潜在表示提取
    • LLM 表示:从 Hugging Face 加载预训练 LLMs,对蛋白质文本描述进行分词,通过模型提取最后一层隐藏状态中最后一个标记的表示。
    • GDM 表示:不同 GDM 模型根据自身机制提取蛋白质表示,如 GearNet 通过关系 GNN 和边消息传递机制,GVP 对处理后的 PDB 数据进行平均池化等。

  5. 表示对齐:将模型组合成 12 个模型对,为每个模型对训练两个投影头,使投影后的图表示和文本表示维度相同。使用对比损失函数(基于 InfoNCE 损失的修改版本),最大化正样本对的余弦相似度,最小化负样本对的余弦相似度。

研究结果


  1. 模型角度分析
    • 模型对对齐(RQ1):训练投影头后,多数模型对的对齐性能提升,但涉及 GAT 的模型对除外。包含 ScanNet 或 GearNet 的模型对对齐分数更高,因为它们能处理蛋白质的 3D 结构和几何特征。LLM 的大小与对齐性能正相关,参数和嵌入维度增加,对齐分数提高。
    • Pearson 相关性(RQ2):未训练的模型对之间几乎无相关性,训练后的模型对中,涉及 ScanNet 或 GearNet 的模型对相关性最高,GAT - 基于的模型对相关性较低。训练使不同 LLMs 的表示更一致。

  2. 蛋白质角度分析
    • 氨基酸序列长度:氨基酸序列长度对对齐无显著影响。
    • 稀有性:稀有性显著影响对齐性能,流行蛋白质对齐更好,稀有蛋白质对齐较差。ScanNet 和 GearNet - 基于的模型对在处理稀有蛋白质时表现相对较好。随着 LLM 大小增加,蛋白质对齐分数分布更紧凑。
    • 单 / 多链:蛋白质链数与对齐性能无明显关系。

  3. 改进策略
    • GDM 维度分析(RQ4):增加 GearNet 的嵌入维度可提高模型对的对齐分数,较大的 LLM 在更高维度下对齐效果更好。
    • 投影头分析(RQ5):增加 GDM 投影头的层数可提升对齐分数,两层投影头效果最佳,三层投影头收益递减。
    • LLM 微调分析(RQ6):在蛋白质数据上微调 LLMs 可提高与 GDM 的对齐分数。


讨论


  1. 对齐观察与结论:研究发现,能学习蛋白质 3D 几何信息的 GDMs 与 LLMs 对齐更有效,LLMs 嵌入维度越高对齐越好。同时,蛋白质数据库存在不平衡问题,如某些蛋白质研究过度,而稀有蛋白质研究不足,且蛋白质同源性增加了对齐难度。
  2. 蛋白质聚焦 MLLM 设计建议:未来蛋白质多模态 LLMs 设计应优先采用能捕捉蛋白质多维表示的 GDMs,考虑蛋白质复杂关系,增加 LLM 嵌入维度,采用两层投影头,并对 LLMs 进行特定领域微调。
  3. 蛋白质聚焦 MLLM 性能与应用:通过开发蛋白质聚焦 MLLMs 并在蛋白质描述任务中评估,发现对齐程度与下游任务性能正相关,且能减少幻觉现象。GearNet 和 ScanNet 作为 GDMs 的模型表现更优,随着 LLM 能力增强,性能提升。
  4. 稀有蛋白质对齐策略:提出重加权技术和检索增强方法来处理稀有蛋白质对齐问题。重加权技术提高了模型对稀有蛋白质的对齐分数,检索增强方法显著提升了蛋白质聚焦 MLLMs 在蛋白质描述任务中的性能,减少了幻觉现象。

研究结论


本研究全面分析了 LLMs 和 GDMs 在蛋白质领域的多模态对齐问题,揭示了影响对齐的关键因素,为设计更有效的多模态模型提供了实践指导。研究强调了考虑蛋白质复杂关系、利用 3D 几何信息、优化模型参数和微调 LLMs 的重要性。通过实验验证,更高的对齐程度能提升下游任务性能并减少幻觉现象。未来研究需要更全面的蛋白质数据集,以进一步优化对齐策略和多模态系统。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号