编辑推荐:
深度学习优化器在复杂损失景观中表现出色,但背后机制不明。研究人员开展 “优化多重分形损失景观解释深度学习几何与动力学特性” 的研究,发现损失景观复杂性可促进优化,这为理解深度学习及其他领域优化提供新视角。
在过去十年里,深度学习在图像识别、自然语言处理、蛋白质折叠问题等众多领域取得了令人瞩目的成就。其中,优化器起着关键作用,它通常基于简单的迭代梯度下降方法,能在复杂的损失景观中动态寻优,避免陷入局部最小值,最终找到对未见数据具有良好泛化能力的解。然而,简单的基于梯度下降的优化器为何能取得这样的成功,这背后的动态过程是如何产生的,一直是深度学习领域亟待解决的重要问题。为了深入理解这些问题,来自悉尼大学(University of Sydney)的研究人员 Andrew Ly 和 Pulin Gong 开展了相关研究,其成果发表在《Nature Communications》上。
这项研究意义重大。它不仅为深度学习中优化器的工作机制提供了深入见解,有助于人们更好地理解深度学习模型的训练过程,还为优化算法的改进提供了理论依据。此外,该研究的视角和方法有望拓展到其他领域,如进化生物学和生态学,为这些领域在复杂适应度景观中的优化问题提供新的解决思路。
研究人员在开展研究时用到了以下几个主要关键技术方法:
模拟梯度下降 :利用 MATLAB 的 FracLab 工具箱生成多重分形损失景观,在笛卡尔网格上离散化,通过中心差分等方法计算损失梯度,模拟梯度下降学习动力学。
表征损失景观 :采用小波领导者多重分形形式主义,结合 PLBMF 工具盒,对损失景观的多重分形性质进行量化分析;通过训练 VGG - 16 网络等,在不同训练阶段对损失景观进行可视化和特征描述。
确定混沌特性 :使用 Sprott 算法估计最大 Lyapunov 指数,以此来衡量混沌特性。
求解分数 Langevin 方程 :针对非马尔可夫情况,应用特定数值方案求解分数 Langevin 方程,并模拟分数布朗运动,从而对理论预测进行验证。
下面来看具体的研究结果:
多重分形损失景观再现现实场景关键特性 :研究人员构建了一个将损失景观建模为多重分形的理论框架。通过引入点态 H?lder 指数H ,创建相应的随机高斯函数B H ? ,进而构建损失景观L 。多重分形分析表明,损失景观L 具有连续的标度指数,呈现出多尺度特性。计算其曲率发现,平均而言,更平坦的最小值位于更平滑的盆地中,且平滑盆地中的聚类解高度简并(即损失值几乎相同),被低障碍分隔,这与从统计力学角度对损失景观全局结构的理论和实证特征相符。在对实际深度神经网络的研究中,通过对 VGG - 16 网络在 CIFAR - 10 数据集上训练不同阶段的损失景观进行可视化和分析,发现其具有多重分形结构,且随着训练进行,优化器趋向于更平滑的盆地,这与理论预期一致。
梯度下降在多重分形损失景观上的优化动力学 :研究发现,梯度下降在多重分形损失景观中的优化过程能够解释深度学习中的多种动力学现象。例如,边缘稳定性(EoS)现象在模型中自然出现,无论初始化如何,主导 Hessian 特征值始终刚好高于稳定性阈值2/ η (η 为学习率),且通过扩展点态 H?lder 指数H 的范围,可进一步扩大 EoS 现象的范围。同时,在 EoS 现象的参数区域内,梯度下降表现出混沌动力学,处于混沌边缘,其动力学导致了确定性梯度下降的随机行为,如分布收敛。此外,梯度下降动力学还表现出非平稳异常扩散,分为两个阶段,在小时间尺度上存在亚扩散,在大时间尺度上出现饱和,中间时间尺度上有瞬态超扩散,这与实际训练场景中观察到的现象相似。
分数扩散理论 :研究人员基于研究非平衡物理系统的分数形式主义,发展了分数扩散理论。通过应用过阻尼分数 Langevin 方程,该理论能够解释梯度下降在损失景观上的非平稳异常扩散动力学。例如,在不同的时间尺度下,分数扩散理论预测的扩散指数与实验结果相符,在粗糙盆地中表现为正常扩散,在平滑盆地中表现为亚扩散,在大时间尺度上出现饱和。同时,分数扩散理论表明,非平稳异常扩散动力学对深度学习具有优势,初始的超扩散能够快速探索损失景观,随后的亚扩散有利于在平滑盆地中寻找低损失解,这种自适应行为类似于景观依赖的退火过程,使优化器能够趋向于连接良好、更平坦的最小值,从而促进泛化。从收敛行为来看,优化器更倾向于收敛到更高体积的解空间,其概率分布收敛到 Gibbs 分布,这意味着概率集中在盆地而非单个最小值上,且更倾向于更平坦的盆地,有利于网络的可优化性和求解空间的可导航性。通过对平均首次通过时间的分析可知,优化器倾向于避开粗糙盆地,而更青睐平滑盆地。
研究结论和讨论部分强调了该研究的重要意义。此研究揭示了损失景观的几何特征与深度学习优化动力学之间的机制联系,表明梯度下降优化器能够利用损失景观的复杂性,以一种类似景观依赖退火的方式导航到更大、更平滑的解空间,促进泛化。该框架为理解深度学习提供了统一的非平衡统计力学方法。此外,研究还预测了一些由多重分形结构产生的特性,如曲率分布、最小值的分形组织等,为进一步研究损失景观的性质提供了方向。同时,研究指出在混沌边缘,网络优化的动力学表现出景观依赖性,具有显著的计算优势,且这种优势不需要精确的参数微调。与以往的理论相比,该研究的分数扩散理论能够更好地解释深度学习中异常扩散的非平稳性,将训练过程中的非平稳异常扩散动力学与损失景观的空间变化结构联系起来。未来的研究可以进一步利用这些景观感知的退火特性,开发更有效的优化算法,为深度学习的发展提供更有力的支持。
閹垫捁绁�
娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀
10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�
濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�
閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�
娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�