Corsair:面向生成式AI推理的内存计算芯粒架构创新与效能突破

《IEEE Micro》:Corsair: An In-Memory Computing Chiplet Architecture for Inference-Time Compute Acceleration

【字体: 时间:2025年12月04日 来源:IEEE Micro 2.9

编辑推荐:

  本文针对大语言模型(LLM)推理阶段存在的内存墙瓶颈问题,介绍了d-Matrix公司研发的Corsair芯片架构。该研究通过数字内存计算(DIMC)引擎、块浮点(BFP)数值格式、高带宽片上存储与芯粒互连技术,实现了2400-9600 TOPS(8-b/4-b)算力与150 TB/s内存带宽。实测显示其推理延迟降低9.7倍,能效达47 TOPS/W,为生成式AI规模化部署提供经济可行的硬件解决方案。

  
随着生成式人工智能(GenAI)的爆发式增长,大语言模型(LLM)和推理模型(RM)已成为现代AI系统的核心基石。然而,这些模型在推理阶段暴露出严峻的计算效率问题:传统GPU架构的算力增长与内存带宽提升严重失衡,导致LLM推理过程中高达90%的时间耗费在内存数据搬运而非实际计算上。这种被称为"内存墙"的瓶颈现象,使得即使是最先进的GPU在处理LLM推理时,也难以同时满足低延迟和高吞吐量的需求。
更为棘手的是,新一代推理时计算(Inference-Time Compute)范式要求模型通过多轮迭代推理提升精度,例如1B参数模型通过128次推理迭代可达到8B参数模型的精度水平,但代价是推理延迟增加9倍。这种计算特性对硬件架构提出了全新挑战:需要同时突破计算吞吐、内存带宽、互联效率和数值精度四大技术边界。
为解决这一系统性难题,d-Matrix公司研发团队在《IEEE Micro》上提出了Corsair架构——一种专为LLM推理优化的内存计算芯粒方案。该架构通过四大技术创新构建完整解决方案:数字内存计算(DIMC)引擎实现47 TOPS/W能效,块浮点(BFP)数值格式支持低精度计算,2GB片上SRAM提供150 TB/s带宽,以及基于芯粒的多芯片模块(MCM)设计实现可扩展互联。
关键技术方法包括:1)采用数字式内存计算阵列,将权重数据存储在计算单元内部,通过双比特串行流式处理激活值,避免传统架构中的数据搬运开销;2)设计分层存储体系,由存储权重的Stash Memory、共享全局内存(GM)和输出缓冲区(OB)构成三级缓存结构;3)基于ODSA BoW 1.0规范的芯粒互连技术,实现1 Tb/s的片间带宽;4)硬件级动态调度引擎,支持推理过程中的动态计算图执行。
架构设计原理
Corsair芯片采用模块化设计,基本计算单元Apollo Core(AC)由DIMC阵列和向量单指令多数据(vSIMD)核心构成。两个AC组成切片(Slice),四个切片集群形成象限(Quad),四个象限通过全互联结构组成芯粒(Chiplet)。每个DIMC阵列包含64列权重缓冲区,支持4位/8位混合精度运算,配合部分积归约(PPR)引擎实现灵活的矩阵分块计算。
内存层次优化
针对LLM推理中的KV缓存爆炸性增长问题,Corsair在存储子系统上进行深度优化。Stash Memory采用高密度SRAM单元,为每个DIMC核心提供64B/时钟的专用带宽;全局内存(GM)作为切片级共享缓存,支持输入激活值暂存和集合操作;输出缓冲区(OB)创新性地集成了原位归约原语,可在数据传输过程中完成跨AC的局部累加。
多设备扩展能力
通过PCIe Gen5 x16接口和DMX桥接器,Corsair支持最多16个芯粒组成全互联张量并行(TP)单元。测试数据显示,在70B参数LLaMA模型推理中,64卡Corsair集群相比8卡H100系统实现9.7倍延迟降低和1.8倍吞吐提升。特别在批处理规模为32时,DIMC计算利用率达到71%,远超传统GPU在相同批处理规模下的性能表现。
能效表现分析
在800MHz运行频率下,Corsair的DIMC能效达到35.3 TOPS/W(4位精度),与业界最优能效水平相当。块浮点数值格式(BFP16/BFP12/BFP24)在保持模型精度的同时,将内存占用降低至FP16格式的1/4。实测数据显示,在处理4096×4096矩阵乘法时,随着激活行数从1增加到64,计算利用率呈现线性增长趋势,证明其架构特别适合LLM解码阶段的小批量推理场景。
研究结论表明,Corsair通过硬件-软件协同设计方法,成功解决了LLM推理中的内存带宽瓶颈问题。其创新之处在于将内存计算技术与芯粒架构深度融合,在保持编程灵活性的同时实现数量级级的能效提升。该架构为下一代AI推理系统树立了新标杆,使得在合理成本下部署千亿参数模型的实时推理成为可能。未来通过3D堆叠内存等技术的引入,有望进一步突破存储容量限制,为更复杂的推理模型提供硬件支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号