HotPrefix：一种基于热度感知的键值缓存调度机制，用于在大语言模型（LLM）推理系统中实现高效的前缀共享

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Proceedings of the ACM on Management of Data》：HotPrefix: Hotness-Aware KV Cache Scheduling for Efficient Prefix Sharing in LLM Inference Systems

【字体：大中小】 时间：2025年11月07日 来源：Proceedings of the ACM on Management of Data

编辑推荐：

　　HotPrefix通过动态跟踪前缀热度、选择性缓存管理和热数据升级机制优化LLM推理性能，相比vLLM降低延迟2.25倍并提升吞吐量。

摘要

提示工程（Prompt Engineering）技术被广泛用于提升大型语言模型（LLMs）的生成质量。然而，过长的提示会显著增加推理延迟并降低推理吞吐量。由于许多提示具有共同的前缀，因此提出了前缀共享（Prefix Sharing）机制，以便在推理过程中重用共享的前缀键值（KV）缓存。然而，由于前缀键值缓存的数量众多且GPU内存容量有限，将所有前缀键值缓存存储在GPU内存中并不现实。这一限制迫使人们采用外部存储策略，但传统方法往往会导致较高的I/O开销和频繁的缓存未命中现象。为了解决这些问题，本文提出了HotPrefix，这是一个基于热度感知的键值缓存调度框架，专为LLM推理系统中的高效前缀共享设计。HotPrefix引入了三项核心创新：（1）动态热度追踪（Dynamic Hotness Tracking），它能够动态监控并更新前缀树节点的热度；（2）选择性键值缓存 admission（Selective KV Cache Admission），该机制评估从GPU内存中移除的缓存，仅将高热度缓存保留到CPU内存中，以扩大GPU内存容量并减少键值缓存传输的开销；（3）热度提升（Hotness Promotion），它定期将高热度的前缀树键值缓存从CPU内存迁移到GPU内存。这些机制结合高效的I/O和计算流程，确保GPU内存被分配给最关键的前缀，同时掩盖了与键值缓存传输相关的I/O开销。这些改进显著提高了缓存命中率，降低了推理延迟，并提升了吞吐量。在SGLang框架中实现的HotPrefix，与启用前缀共享的vLLM相比，可将推理延迟降低2.25倍，并提升吞吐量；与SGLang本身相比，它还能进一步将延迟降低2倍，吞吐量提升1倍。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号