基于Gemmini的高性能矩阵乘法加速器,用于深度学习工作负载
《IEEE Transactions on Very Large Scale Integration (VLSI) Systems》:High-Performance Gemmini-Based Matrix Multiplication Accelerator for Deep Learning Workloads
【字体:
大
中
小
】
时间:2025年12月02日
来源:IEEE Transactions on Very Large Scale Integration (VLSI) Systems 3.1
编辑推荐:
基于 systolic array 的 Gemmini 加速器矩阵乘法优化研究,提出多阶段乘法器(MOSA)设计,集成3:2和4:2压缩器,实现8/16/32/64位精度下面积节能12%-92%和性能提升。经AlexNet等CNN和TinyBERT Transformer验证,WS流数据流能效比优化56%-59%,OS流优化10%-46%。
摘要:
由于Transformer模型能够捕捉特征之间的关系,从而在计算机视觉应用中获得了广泛关注,其性能得到了显著提升。此外,深度神经网络(DNN)也因其在多个领域的卓越性能和适用性(包括图像分类、检测和识别)而受到深入研究。矩阵乘法是Transformer和DNN中的关键操作,诸如权重固定(WS)和输出固定(OS)等计算方式被认为是满足数据流约束的有效手段。本文提出了一种基于脉动阵列(SA)的通用矩阵乘法(GEMM)架构,用于Gemmini加速器,以实现神经网络中的卷积运算和Transformer中的自注意力机制。首先,本文通过集成一种新型乘法器,设计了一种优化后的SA(MOSA)。该乘法器采用了单级堆叠结构的3:2和4:2压缩器。实验表明,对于8位和16位设计,MOSA在面积节省方面分别达到了12%至92%、87%至89%的优化效果。所提出的乘法器被应用于高性能的Gemmini SA中,用于WS和OS数据流处理;同时还对处理单元(PE)进行了进一步改进,以提升性能。具体而言,改进后的WS PE实现了56%至59%的功耗延迟积(PDP)节省和45%至51%的面积延迟积(ADP)减少;OS PE则实现了10%至46%的PDP节省和6%至42%的ADP减少。该架构的分析进一步扩展到了卷积神经网络(CNN)和Transformer,通过将MOSA集成到完整的推理流程中,包括AlexNet、MobileNetV2和ResNet-50等CNN模型,以及TinyBERT的Transformer自注意力机制。MOSA-32设计在性能上实现了1...的提升。
引言
近年来,Transformer[1][2]在对象检测、语言建模等深度学习应用中引发了革命性变革。最近,结合卷积神经网络(CNN)的Transformer在准确性方面取得了更好的成果[3]。这些应用的核心是深度神经网络(DNN),它们需要强大的计算能力来训练和推理其庞大的互连层网络。CNN和Transformer的有效性取决于它们高效执行矩阵乘法的能力。DNN的计算基础包括卷积运算和通用矩阵乘法(GEMM)等操作。Transformer模型主要由前馈网络和多头注意力(MHA)组成,其中MHA层主要负责查询矩阵(Q)、键矩阵(K)和值矩阵(V)之间的矩阵乘法运算[1]。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号