神经网络学习分类任务中的编码机制:探索权重缩放与神经元非线性的奥秘

【字体: 时间:2025年04月10日 来源:Nature Communications 14.7

编辑推荐:

  为解决神经网络在表示学习和泛化方面存在的理论问题,研究人员开展了关于非懒惰(non - lazy)网络权重后验的研究。结果发现不同神经元非线性会产生模拟(analog)、冗余(redundant )和稀疏(sparse)编码方案。这有助于理解神经网络学习机制,推动深度学习理论发展。

  在深度学习领域,神经网络展现出强大的能力,能够从训练数据中学习有用的表示并进行泛化。然而,尽管神经网络的每个细节都清晰可及,任务也明确,但神经元如何协同解决任务仍是未解之谜。从理论角度来看,关于表示学习存在诸多基础问题,例如从数据中提取哪些特征,以及这些特征如何在神经元中表示。同时,神经网络在过参数化(overparameterized)状态下仍能泛化,这也引发了关于隐式和显式正则化对权重空间影响的疑问。为了深入探究这些问题,来自哈佛大学(Harvard University)和希伯来大学(Hebrew University)的研究人员展开了研究,相关成果发表在《Nature Communications》上。
研究人员采用贝叶斯框架(Bayesian framework),在网络宽度 N 和数据集大小 P 趋于无穷的极限情况下,对非懒惰网络的权重后验进行研究。主要关键技术方法包括:通过设定不同的神经元非线性函数(如线性、sigmoidal、ReLU)构建全连接前馈网络;利用贝叶斯框架,从权重后验分布中采样以研究网络学习后的特性;运用 mean - field 理论推导核函数、学习表示、输入输出函数及网络性能的相关表达式。

研究结果如下:

  • 非懒惰网络:通过特定的乘法因子将网络置于非懒惰 regime,在此状态下网络能学习到强大的、依赖任务的表示。为研究学习后网络的特性,研究人员使用贝叶斯框架,并调整读出权重的先验方差,确保非懒惰缩放不会被学习过程轻易抵消。
  • 核与编码方案:常用的核函数无法反映神经元激活对学习特征的表示方式。研究人员定义了神经编码的概念,发现网络中存在模拟、冗余和稀疏三种编码方案,且编码方案的性质取决于隐藏层激活函数的选择。线性网络中是模拟编码,sigmoidal 网络中是冗余编码,ReLU 网络中是稀疏编码。
  • 主要理论结果:推导出 mean - field 理论,该理论表明读出权重和激活的联合后验在神经元和层间解耦。不同激活函数下,编码方案具有不同特性。例如线性网络中,读出权重后验是高斯分布,神经元对所有类进行分级编码;sigmoidal 网络中,读出权重后验是狄拉克 δ 函数的加权和,神经元呈现冗余编码;ReLU 网络中,读出权重后验分为少量异常值神经元和大量主体神经元,呈现稀疏编码。
  • 动力学:研究发现线性网络中,读出权重和激活的后验是单峰高斯分布,采样时能充分探索其单峰。而在 sigmoidal 和 ReLU 网络中,读出权重后验分裂为不相连的分支,导致遍历性(ergodicity)破坏,神经元的编码身份在采样时固定,置换对称性(permutation symmetry)被打破。
  • 泛化:研究人员探究了网络对未见测试输入的泛化能力。结果表明,非懒惰网络的预测器方差可忽略不计,泛化误差相较于懒惰网络有所降低。在 MNIST 和 CIFAR10 图像分类任务中,不同编码方案的网络在测试输入上表现出不同的泛化性能。

研究结论和讨论部分指出,该研究揭示了神经网络中学习表示的编码方案结构,不同非线性函数导致不同的编码方案。同时,研究还发现编码方案与置换对称性破坏以及神经坍缩(neural collapse)现象相关。然而,该理论也存在一定局限性,如假设网络宽度和数据集大小趋于无穷,仅适用于隐藏层数和输出数较少的网络等。尽管如此,这项研究为理解神经网络学习机制提供了重要的理论基础,有助于推动深度学习理论的进一步发展,为后续研究指明了方向,例如如何将该理论扩展到更深的网络或具有大量输出的网络等。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号