HotPrefix:一种基于热度感知的键值缓存调度机制,用于在大语言模型(LLM)推理系统中实现高效的前缀共享
《Proceedings of the ACM on Management of Data》:HotPrefix: Hotness-Aware KV Cache Scheduling for Efficient Prefix Sharing in LLM Inference Systems
【字体:
大
中
小
】
时间:2025年11月07日
来源:Proceedings of the ACM on Management of Data
编辑推荐:
HotPrefix通过动态跟踪前缀热度、选择性缓存管理和热数据升级机制优化LLM推理性能,相比vLLM降低延迟2.25倍并提升吞吐量。
摘要
提示工程(Prompt Engineering)技术被广泛用于提升大型语言模型(LLMs)的生成质量。然而,过长的提示会显著增加推理延迟并降低推理吞吐量。由于许多提示具有共同的前缀,因此提出了前缀共享(Prefix Sharing)机制,以便在推理过程中重用共享的前缀键值(KV)缓存。然而,由于前缀键值缓存的数量众多且GPU内存容量有限,将所有前缀键值缓存存储在GPU内存中并不现实。这一限制迫使人们采用外部存储策略,但传统方法往往会导致较高的I/O开销和频繁的缓存未命中现象。为了解决这些问题,本文提出了HotPrefix,这是一个基于热度感知的键值缓存调度框架,专为LLM推理系统中的高效前缀共享设计。HotPrefix引入了三项核心创新:(1)动态热度追踪(Dynamic Hotness Tracking),它能够动态监控并更新前缀树节点的热度;(2)选择性键值缓存 admission(Selective KV Cache Admission),该机制评估从GPU内存中移除的缓存,仅将高热度缓存保留到CPU内存中,以扩大GPU内存容量并减少键值缓存传输的开销;(3)热度提升(Hotness Promotion),它定期将高热度的前缀树键值缓存从CPU内存迁移到GPU内存。这些机制结合高效的I/O和计算流程,确保GPU内存被分配给最关键的前缀,同时掩盖了与键值缓存传输相关的I/O开销。这些改进显著提高了缓存命中率,降低了推理延迟,并提升了吞吐量。在SGLang框架中实现的HotPrefix,与启用前缀共享的vLLM相比,可将推理延迟降低2.25倍,并提升吞吐量;与SGLang本身相比,它还能进一步将延迟降低2倍,吞吐量提升1倍。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号