TIPred-MVFF:多视图特征融合策略助力酪氨酸酶抑制肽精准预测

【字体: 时间:2025年02月10日 来源:Scientific Reports 3.8

编辑推荐:

  在皮肤色素沉着相关研究中,酪氨酸酶抑制肽(TIPs)的预测面临挑战。研究人员开展 TIPs 预测研究,提出 TIPred-MVFF 方法。结果显示该方法预测准确性高,能助力发现新型 TIPs,为相关领域研究提供有力工具。

  在我们的身体里,有一种神奇的色素 —— 黑色素,它决定着头发、眼睛和皮肤的颜色。黑色素的产生离不开酪氨酸酶的催化作用。不过,当黑色素生成过多时,就可能引发各种皮肤问题,比如黄褐斑、雀斑和老年斑等。为了控制皮肤色素沉着,酪氨酸酶抑制肽(TIPs)成为了研究的热点。TIPs 能够调节酪氨酸酶的活性,在化妆品、皮肤病学和制药等领域有着巨大的应用潜力。
然而,目前 TIPs 的研究面临着一些困境。虽然已经有一些基于机器学习的模型被用于预测 TIPs,但它们的预测性能并不理想。主要原因在于可用的 TIPs 数量较少,而且存在学习不平衡的问题。此外,现有的实验技术在高通量筛选 TIPs 时,既耗时又昂贵。因此,开发一种能够快速、准确地识别 TIPs 的计算方法迫在眉睫。

为了解决这些问题,来自 Mahidol University 等研究机构的研究人员展开了深入研究。他们提出了一种创新的计算方法 ——TIPred-MVFF,旨在仅利用序列信息就能精准预测 TIPs。这项研究成果发表在《Scientific Reports》上,为 TIPs 的研究带来了新的突破。

研究人员在研究过程中用到了几个关键的技术方法:首先是数据集构建,他们从多个来源收集 TIPs 和非 TIPs,经过筛选构建出高质量数据集,并划分训练集和独立测试集;其次是特征编码和学习,运用序列 - 基于特征描述符和混合 - 基于特征编码方案提取特征,并结合多种机器学习算法进行分析;再者是采用重采样方法解决数据不平衡问题;最后通过多视图特征融合策略,融合不同特征构建预测模型,并使用 10 折交叉验证和独立测试评估模型性能。

研究结果


  1. 氨基酸偏好分析:通过对 TIPs 进行氨基酸组成分析,发现 Cys、Tyr、Arg、Phe 和 Gly 是 TIPs 中最重要的五种氨基酸。这些氨基酸在 TIPs 中的含量显著高于非 TIPs,其差异具有统计学意义(p < 0.05)。这一结果与以往研究中发现的 TIPs 中常见的氨基酸组成相吻合,表明这些氨基酸在 TIPs 抑制酪氨酸酶的过程中可能起着关键作用。
  2. 重采样方法的效果:研究人员评估了四种不同重采样方法对不平衡数据集的影响。结果显示,在 10 折交叉验证测试中,使用合成少数过采样技术(SMOTE)和上采样方法训练的支持向量机(SVM)分类器,平均马修斯相关系数(MCC)分别达到 0.547 和 0.530;在独立测试中,上采样和无重采样方法的平均 MCC 值分别为 0.586 和 0.582。综合来看,上采样方法对缓解类别不平衡问题最为有效,因此研究人员在后续模型构建中采用了该方法。
  3. 不同特征表示的性能:研究人员对比了基于序列的特征和基于混合的特征在 TIP 预测中的性能。在基于序列的特征中,氨基酸组成(AAC)、两亲性伪氨基酸组成(APAAC)等表现较为突出;而在基于混合的特征中,概率特征(PF)、类别特征(CF)及其组合特征(CPF)的平均交叉验证 MCC 值分别为 0.797、0.901 和 0.861,明显优于基于序列的特征。这表明基于混合的特征,尤其是 PF,在 TIP 预测中具有更高的有效性。
  4. TIPred-MVFF 的优化:研究人员利用多视图特征融合(MVFF)策略,将 PF 与不同的基于序列的特征融合,构建了多个多视图特征(MVF)。经过两步特征选择方法优化后,发现 MVF2_FS 表现最佳。在交叉验证中,其 BACC、MCC 和 AUC 分别达到 0.983、0.954 和 0.998;在独立测试中,相应的值为 0.921、0.847 和 0.968。这表明 MVF2_FS 能够充分利用基于序列和基于混合的特征优势,有效提升 TIP 预测性能。
  5. TIPred-MVFF 的性能评估:将 TIPred-MVFF 与传统机器学习分类器和现有方法进行比较,结果显示 TIPred-MVFF 在准确率(ACC)、平衡准确率(BACC)、特异性(Sp)、MCC 和 AUC 等指标上均表现出色。在独立测试中,TIPred-MVFF 的 ACC 为 0.937,MCC 为 0.847,AUC 为 0.968,明显优于其他方法。这充分证明了 TIPred-MVFF 在精准识别 TIPs 方面的有效性和稳健性。
  6. 模型解释:研究人员使用 Shapley 加性解释(SHAP)方法分析了 TIPred-MVFF 模型中不同特征的重要性及其与预测输出的相互作用。结果发现,一些与非极性或疏水性氨基酸位置、溶剂可及性、极性、二级结构等相关的特征对 TIP 活性有重要影响。这为深入理解 TIPs 与酪氨酸酶的相互作用机制提供了理论依据,有助于设计更有效的基于肽的抑制剂。

研究结论与讨论


本研究成功开发了基于 MVFF 策略的 TIPred-MVFF 计算方法,显著提高了 TIPs 的预测准确性。通过构建高质量数据集、采用新的特征表示方法和多视图特征融合策略,TIPred-MVFF 在与其他方法的比较中展现出明显优势。这一成果对于快速、经济地发现具有强酪氨酸酶抑制活性的新型肽具有重要意义,有望为治疗色素沉着相关疾病提供新的思路和方法。

不过,研究也存在一些可改进之处。未来研究人员计划收集更多 TIPs 数据,构建更全面的基准数据集;利用多源预训练的蛋白质语言模型生成序列嵌入;结合其他先进的机器学习和深度学习框架,如深度堆叠策略和迭代特征表示;应用数据增强技术解决不平衡训练数据集问题;开发用户友好的网络服务器,方便 TIPred-MVFF 的广泛应用。这些改进措施将进一步提升 TIPs 预测的准确性和实用性,推动相关领域的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号