基于熵引导元初始化正则化的少样本文本分类方法研究

【字体: 时间:2025年07月03日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对梯度元学习方法在少样本文本分类中存在的"盲类过自信问题(blind class over-confidence problem)",研究人员提出熵引导元初始化正则化(EGMI)方法。通过最大化模型熵值使元初始化参数保持类间均衡分布,在CLINC150数据集上实现15-way 5-shot准确率从84.13%提升至91.36%,无需增加参数和训练成本,为少样本学习提供新思路。

  

在自然语言处理(NLP)领域,文本分类技术支撑着情感分析、垃圾邮件识别等核心应用。尽管深度学习大幅提升了传统任务的性能,但面对少样本场景时,模型往往因数据匮乏而表现欠佳。当前主流解决方案——基于梯度的元学习方法(Model-Agnostic Meta-Learning, MAML),虽能通过多任务学习获得良好的元初始化参数,却存在一个鲜被关注的缺陷:模型在任务适应前会对特定类别产生过度自信预测,这种现象被定义为"盲类过自信问题"。这种偏见会导致模型在元测试阶段对未见样本产生系统性误判,严重制约少样本场景下的泛化能力。

为攻克这一难题,Kookmin大学的研究团队在《Knowledge-Based Systems》发表创新成果。研究人员发现,传统MAML框架中,模型在初始阶段就表现出对某类别的极端偏好(如某类概率高达0.87),这种偏见虽经任务适应有所缓解,但在查询集测试时仍会顽固存在。通过理论分析,团队首次揭示低熵的元初始化是诱发该问题的关键因素,进而提出熵引导元初始化正则化(Entropy-Guided Meta-Initialization regularization, EGMI)方法。该方法在外部循环中引入熵最大化约束,迫使模型在元初始化阶段保持各类别概率的均衡分布,从而从根本上避免过自信偏见的产生。

研究采用三项关键技术:1)构建N-way K-shot任务采样框架,模拟少样本场景;2)在MAML双循环优化中嵌入熵正则项,数学表达为LEGMI = Ltask - λH(p(y|x));3)基于BERT模型在HuffPost等基准数据集进行验证。实验设计包含支持集适应和查询集评估两个阶段,通过对比初始预测、适应后预测及查询集表现的动态变化,直观展示过自信问题的形成机制及EGMI的修正效果。

【研究结果】

  1. 盲类过自信问题验证:在HuffPost数据集上的可视化分析显示,传统MAML在初始阶段对类别4赋予0.87的极端概率,虽经5步适应调整至正确类别1,但在查询集测试时仍对类别4保持0.6的高置信度,导致误判。而EGMI组初始各类概率均衡分布在0.2-0.3区间,最终实现正确分类。

  2. 基准测试性能:在CLINC150数据集15-way 5-shot任务中,EGMI将准确率从基准的84.13%提升至91.36%,1-shot任务提升幅度达7.23%。在Amazon、HuffPost等数据集上也显著优于ProtoNet、RelationNet等对比方法。

  3. 熵值分析:定量测量显示EGMI使初始熵值提升41.2%,有效缓解预测分布的尖锐化倾向。消融实验证实熵正则项的加入使模型在保持原始参数量的前提下,查询集错误率降低32%。

【结论与意义】
该研究首次系统揭示了少样本元学习中存在的盲类过自信问题,并提出简洁高效的熵引导解决方案。理论层面,阐明了元初始化熵值与模型泛化能力的关联机制;实践层面,EGMI无需增加计算开销即可显著提升性能,在15-way分类任务中实现7%以上的突破性进步。方法论上,将信息论中的熵概念创新性地应用于元参数初始化优化,为后续研究开辟新方向。研究成果对客服系统意图识别、医疗文本分类等实际少样本场景具有重要应用价值,相关代码已开源促进领域发展。未来工作可探索熵正则化与度量学习的结合,以及在跨模态少样本任务中的扩展应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号