编辑推荐:
为解决当前 Transformer 架构的局限,如复杂度不支持缩放定律、依赖大量数据等问题,研究人员开展关于下一代人工神经网络维度和动态性的研究。结果表明引入网络高度和反馈循环可提升性能。这为 AI 发展提供新方向。
在人工智能蓬勃发展的当下,Transformer 架构在深度学习研究与应用中占据主导地位,ChatGPT、GPT-4 等基础模型的成功便是有力例证。然而,这一架构并非完美无缺。其复杂度无法完全适配缩放定律,随着模型规模扩大,计算资源的消耗呈指数级增长;并且对大量数据的强依赖,使得在数据稀缺的任务场景中,若不进行繁琐的微调,模型表现往往差强人意。更严峻的是,硬件发展逐渐逼近物理极限,先进 GPU 的制造工艺接近原子尺度,难以承载更大规模的模型。这些问题犹如一道道关卡,阻碍着人工智能向更高层次迈进,因此突破现有架构的束缚迫在眉睫。
在此背景下,来自美国伦斯勒理工学院(Rensselaer Polytechnic Institute)的 Ge Wang 和香港城市大学(City University of Hong Kong)的 Feng - Lei Fan 开展了相关研究。他们从 Geoffrey E. Hinton 和 John J. Hopfield 荣获诺贝尔物理学奖的研究成果中获取灵感,聚焦于人工神经网络的维度和动态性,探索下一代人工智能模型的发展路径。这一研究成果发表在《Patterns》杂志上,为人工智能领域的发展带来了新的曙光。
研究人员采用的主要关键技术方法包括:通过引入如 Kolmogorov - Arnold Network(KAN)型链接等方式,构建具有高度和更多维度的神经网络模型;借鉴 Hopfield 网络反馈机制,结合扩散模型、流模型等物理学启发的模型,利用多步反馈循环实现复杂动力学过程;运用张量分解等数学方法,分析和优化高维特征表示。
引入高度和更多维度
传统神经网络在宽度和深度的权衡上存在诸多复杂问题。从理论上讲,宽度和深度在表达能力上基本等效,但在实际应用中,深度增加虽常带来性能提升,却需要特定的层宽度条件。一味加深模型可能导致效率低下或出现缺陷,例如,Goyal 等人的研究表明,12 层的宽网络性能可与 30 层的深网络相媲美。
人类大脑作为高效的三维(3D)神经网络,能够高效处理信息并融合多种认知功能。受此启发,研究人员提出在神经网络中引入高度维度。高度可通过层内链接实现,与传统连接层的捷径不同,层内链接在层内建立神经元间的连接,使神经元无法简单线性展开,赋予高度方向非平凡的意义。
引入高度与增加深度有着本质区别。增加高度既不增加仿射变换次数,也不增加非线性激活次数,而增加宽度或深度则会。层内链接通过打破对称性、增强神经元间互信息,降低相关假设空间。研究发现,具有层内链接的较窄网络可具备与指数级更宽网络相同的能力,如长短期记忆(LSTM)网络配备高度维度后可提升记忆容量。此外,网络的宽度、深度和高度可灵活转换以实现通用逼近,三者的合理耦合能在不大量增加参数的情况下提升网络性能。
在更高维度空间中,存在诸多有利于提升模型性能的特性。如在 4D 空间中,4 - 流形上有丰富的微分结构;在高维空间解决庞加莱猜想更为简单;在平均场理论中,随着维度增加,随机波动被平均化,理论的准确性得以提高。在机器学习领域,增加维度可提升特征可分性,例如,当混合高斯模型的维度 d 满足一定条件时,可更高效地学习。因此,研究人员认为应充分利用 “维度优势”,避免 “维度诅咒”。高度维度还可视为两个网络间的依赖关系,即超网络与主网络的相互作用,超网络可用于设计、构建和优化主网络。
动态性通过反馈机制实现
Hopfield 网络以反馈循环为特征,其神经元的动态变化可形成联想记忆。该网络利用能量景观将存储模式编码在稳定状态,能够从部分信息中回忆起完整模式,类似人类大脑的记忆功能。大脑的相转变现象广泛存在,从水结冰到磁化过程等物理系统中都能观察到,相转变常伴随着新集体行为的出现,在大脑认知功能(如学习、记忆和决策)的产生中发挥关键作用。Friston 的自由能原理指出,自组织主体通过减少环境中的无序和不确定性,优化自身以最小化 “意外” 度量,从而产生智能行为。
研究人员认为先进的智能神经网络也应具备相转变能力,以模拟大脑的关键功能。为此,需要在神经网络中同时运用前馈链接和反馈循环。Hopfield 网络及其变体的反馈机制与前馈网络截然不同,能产生联想记忆等有趣结果。扩散模型等新兴的物理学启发生成模型,通过多步循环实现从原始数据分布到噪声场再到恢复原始分布的过程,展现出强大的动力学特性,在生成式人工智能领域表现卓越,超越了生成对抗网络(GAN)和变分自编码器(VAE)等传统网络。此外,反馈循环还支持 “思想循环” 过程,使网络能够迭代地回顾和完善想法,这是一种更高级的认知处理形式。
结构状态空间序列模型(如 Mamba)通过压缩历史信息预测未来,并选择性恢复相关信息,实现长程依赖建模。研究人员还提出应进一步研究复杂的相转变,如伊辛型(Ising - type)和拓扑相转变。受伊辛模型启发,研究人员在网络训练中翻转神经元梯度方向以增强模型鲁棒性。拓扑相转变在物理学和人工神经网络中都具有独特意义,其通过网络中 “洞”(即环)的变化实现不同拓扑相的转换,这种转换速率类似于温度的作用。该研究提出的层内链接和拓扑环的集成与图神经网络(GNNs)等传统架构有本质区别,GNNs 主要用于图数据的结构关系学习,而此研究聚焦于为深度学习架构引入 Hopfield 式动力学,增强模型的联想记忆、能量最小化、状态收敛和相转变能力。
神经网络在维度和动态性方面的增强,为 AI 在科学研究中的应用提供了新的可能。例如,Demis Hassabis 和 John Jumper 的 AlphaFold 在蛋白质结构预测领域展现了 AI 的巨大潜力。然而,理解高度复杂的非线性系统仍是 AI 面临的重大挑战。水库计算模型(如回声状态网络和液态状态网络)通过将输入信号映射到高维特征空间,为预测非线性动态行为提供了有效框架。研究人员认为,具有相转变特性的 3D 神经网络有望揭示大脑的神经过程,助力理解神经元和神经回路的信息处理机制,这对于神经系统疾病的诊断、预后和治疗具有重要意义。
综上所述,该研究通过引入网络高度和反馈循环,为下一代人工神经网络的发展提供了新的思路和方向。在维度方面,打破了传统仅关注宽度和深度的局限,挖掘高度维度以及更高维度在提升模型性能中的潜力;在动态性方面,借鉴 Hopfield 网络和物理学启发模型,赋予神经网络相转变等复杂动力学特性,使其更接近人类大脑的智能行为。这不仅为解决当前 Transformer 架构面临的困境提供了可能方案,还为 AI 在科学研究、尤其是生命科学和健康医学领域的应用开辟了新的道路,有望推动人工智能技术实现新的突破,为相关领域的发展带来深远影响。