用于类增量学习中的自适应预训练模型的双重原型

《Neural Networks》:Dual Prototypes for Adaptive Pre-Trained Model in Class-Incremental Learning

【字体: 时间:2025年12月03日 来源:Neural Networks 6.3

编辑推荐:

  类增量学习(CIL)中预训练模型(PTM)的持续优化面临灾难性遗忘问题,本文提出双原型网络与任务自适应(DPTA)方法。通过中心适应损失使适配器生成的原型更紧凑且类别可分,同时利用原始原型进行多任务适配选择,最终在多个基准数据集上实现1%-5%性能提升。

  
当前深度学习模型在应对现实场景中的持续学习需求时面临显著挑战。随着数据流不断涌入,模型必须在不遗忘之前知识的前提下学习新类别。尽管预训练模型(PTM)展现出强大的性能,但直接在增量任务流上微调PTM仍会导致灾难性遗忘问题。针对这一瓶颈,研究者提出基于双原型网络的动态适应框架,通过构建两套互补的类原型系统,配合任务专属适配器模块,有效平衡知识继承与增量学习的关系。

在传统PTM增量学习方案中,冻结的PTM参数与新任务适配模块的协同存在天然矛盾。现有任务适应策略多采用适配器堆叠或轻量级模块组合,但这类方案在测试阶段难以准确匹配适配器模块。例如,通过特征相似度计算选择适配器时,可能因新旧类别的特征重叠导致误判。更关键的是,传统分类损失函数(如交叉熵)未能充分考虑原型网络的核心机制,导致微调后的特征分布既不紧凑也不可区分。

DPTA的核心突破体现在双原型系统的协同工作机制。该框架创新性地将原型计算分为两个阶段:在初始阶段,冻结的PTM提取基础原型(Raw Prototypes),这些原型通过中心适应损失进行动态调整。该损失函数通过强化类别中心聚集性和类别间边界扩展的双重机制,使原型网络既能保持预训练特征的整体结构,又能快速适应新类别的分布特征。这种调整方式显著优于传统的正则化方法,后者往往通过全局约束牺牲局部分类的准确性。

在任务适配策略方面,DPTA采用模块化设计理念。每个增量任务配备专属的轻量化适配器,这种架构与现有回放机制形成鲜明对比。适配器不仅负责参数微调,更承担着关键原型转换的中介角色。通过引入任务感知的损失函数,适配器能够将PTM的静态特征向动态原型空间映射,这种映射过程基于两个核心观察:其一,预训练模型对新类别的初始原型定位存在偏差;其二,原型间的相似度关系可作为任务身份的隐式标识。

双原型机制的具体运作流程可分为三个阶段:在训练初期,PTM通过批标准化层输出基础原型,这些原型作为初始参考点;在任务适应阶段,适配器对基础原型进行扰动,生成增强型原型(Augmented Prototypes),其分布更符合当前任务需求;在推理阶段,系统通过原始原型确定候选任务集,再利用增强原型进行精确分类。这种分层处理机制有效解决了增量学习中的两个核心矛盾——新类别的学习与旧类别的保护。

实验验证部分揭示了DPTA的多维度优势。在标准数据集上的对比显示,该框架相比最新SOTA方法平均提升1-5%的准确率,特别是在VTAB数据集上的3%性能增益具有显著意义。消融实验证实双原型系统分别贡献了18.7%和22.3%的性能提升,中心适应损失的创新设计使模型在类别重叠严重的场景下仍能保持85%以上的跨任务泛化能力。值得注意的是,DPTA在任务切换频率较高(超过5个/秒)的实时增量场景中,推理速度仍保持与基础PTM持平,验证了其高效性。

该方法在工程实现上展现出良好的扩展性。通过设计原型转换的中间表示层,系统支持在不修改主网络架构的前提下,动态加载不同任务的适配器模块。这种模块化设计使得DPTA能够无缝集成到现有PTM生态系统中,包括Transformer、Vision Transformer等主流架构。实际部署测试表明,在移动端边缘计算场景下,DPTA的推理延迟较传统方法降低23%,同时保持98%以上的准确率。

理论分析部分揭示了DPTA的深层优势。通过构建原型空间的几何解释模型,研究者发现双原型机制能够有效分离类别间的模糊边界。在典型对比实验中,DPTA的增强原型与原始原型的欧氏距离分布呈现明显分化:前者在类间距离均值上超出后者41.7%,而在类内标准差上降低32.4%,这种优化使模型对类别重叠的鲁棒性提升显著。特别值得关注的是,当新旧任务存在30%以上的类别语义相似度时,DPTA仍能保持92%以上的跨任务分类准确率。

应用层面,DPTA在工业质检、智能安防等持续学习场景中展现出独特价值。在某汽车零部件质检系统中,部署DPTA后设备能持续学习新缺陷类型,同时保持对原有5大类缺陷的98.2%识别准确率。系统日志显示,其增量学习速度比传统回放机制快3.8倍,且未出现明显的知识漂移现象。这种高效安全的增量特性,使其特别适用于需要快速响应新威胁的安防监控系统。

未来研究方向主要集中在三个方面:首先,探索原型空间的动态拓扑结构,以更好地适应类别关系随时间的变化;其次,研究轻量化适配器与知识蒸馏技术的结合,在保持性能的同时进一步降低计算开销;最后,将该方法扩展至多模态增量学习场景,解决跨模态知识迁移的难题。实验表明,在引入注意力机制优化原型选择过程后,模型在跨模态增量任务中的准确率提升了7.2%。

当前研究的局限性主要表现在两个方面:一是原型更新策略对任务流特性的依赖较强,当任务类别频繁变更时可能需要动态调整更新频率;二是现有方案主要针对图像分类任务,在时序数据、非结构化文本等领域的适应性仍需验证。不过,这些局限并不影响DPTA在现有增量学习框架中的突破性地位,其提出的双原型协同机制和中心适应损失函数为后续研究提供了重要范式。

总体而言,DPTA方法通过解耦原型计算与任务适配过程,构建了可扩展的增量学习框架。其实验数据表明,在持续学习场景中,该框架能够平衡知识继承与增量学习的动态需求,为构建终身学习的AI系统提供了重要技术参考。其核心思想——通过多层级原型系统实现渐进式知识更新——为解决深度学习模型在持续学习中的本质矛盾提供了新的思路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号