SIMD-CP:一种针对量化深度神经网络(Quantized DNNs)的SIMD技术,该技术结合了冗余位压缩(Redundant Bits Compression)和混合精度打包(Mixed-Precision Packing)机制
《ACM Transactions on Embedded Computing Systems》:SIMD-CP: SIMD with Redundant Bits Compression and Mixed-Precision Packing for Quantized DNNs
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Embedded Computing Systems
编辑推荐:
边缘设备部署DNN面临执行时间、功耗和内存限制,需软硬件协同设计。提出的SIMD-CP架构通过tvl指令加载带元数据的量化向量,pdotp指令检测精度进行打包,在混合精度和稀疏矩阵场景下实现2倍MAC/cycle增益,功耗和面积效率提升2.7-3.4倍,延迟降低28.8-45.5%,精度损失小于2.1%。该架构在Tiny CNN和Edge-Aware Vision Transformer上验证有效,小规模实现LUT利用率提升1.8%。
摘要
在边缘设备上部署深度神经网络(DNN)面临诸多挑战,包括执行时间、功耗和内存占用问题。为了解决这些限制,基于软件的模型压缩技术与专用硬件的协同设计对于在边缘设备上高效部署DNN至关重要。然而,硬件需要支持多种模型压缩技术,而特定的压缩格式会对传统单指令多数据流(SIMD)架构的有效使用带来限制,例如低位宽精度、细粒度混合精度和稀疏矩阵。为了解决这些问题,我们提出了SIMD-CP,这是一种具有基于标签的精度检测和冗余位宽压缩功能的SIMD架构。具体来说,我们引入了两种新的SIMD指令:(i)带标签的向量加载指令(tvl),它从内存中获取量化向量,并附加位宽元数据作为标签;(ii)打包点积指令(pdotp),该指令能够检测元素的精度级别并将其打包到合适的乘法器中。实验评估表明,通过使用这些指令(tvl和pdotp),我们的方法在细粒度混合精度和稀疏矩阵格式下实现了2.0倍的MAC/周期性能提升。此外,对于混合精度卷积任务,SIMD-CP的性能提升了2.70至3.40倍的GOPs/W和2.31至2.42倍的OPs/LUT。这些多样化的模型压缩技术使得DNN应用的延迟降低了28.8,同时精度损失控制在1.2以内。我们还展示了SIMD-CP架构的可扩展性,在小规模应用中与传统混合精度SIMD相比,LUT利用率提升了1.8。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号