HotPrefix:一种基于热度感知的键值缓存调度机制,用于在大语言模型(LLM)推理系统中实现高效的前缀共享

《Proceedings of the ACM on Management of Data》:HotPrefix: Hotness-Aware KV Cache Scheduling for Efficient Prefix Sharing in LLM Inference Systems

【字体: 时间:2025年11月07日 来源:Proceedings of the ACM on Management of Data

编辑推荐:

  HotPrefix通过动态跟踪前缀热度、选择性缓存管理和热数据升级机制优化LLM推理性能,相比vLLM降低延迟2.25倍并提升吞吐量。

  

摘要

提示工程(Prompt Engineering)技术被广泛用于提升大型语言模型(LLMs)的生成质量。然而,过长的提示会显著增加推理延迟并降低推理吞吐量。由于许多提示具有共同的前缀,因此提出了前缀共享(Prefix Sharing)机制,以便在推理过程中重用共享的前缀键值(KV)缓存。然而,由于前缀键值缓存的数量众多且GPU内存容量有限,将所有前缀键值缓存存储在GPU内存中并不现实。这一限制迫使人们采用外部存储策略,但传统方法往往会导致较高的I/O开销和频繁的缓存未命中现象。为了解决这些问题,本文提出了HotPrefix,这是一个基于热度感知的键值缓存调度框架,专为LLM推理系统中的高效前缀共享设计。HotPrefix引入了三项核心创新:(1)动态热度追踪(Dynamic Hotness Tracking),它能够动态监控并更新前缀树节点的热度;(2)选择性键值缓存 admission(Selective KV Cache Admission),该机制评估从GPU内存中移除的缓存,仅将高热度缓存保留到CPU内存中,以扩大GPU内存容量并减少键值缓存传输的开销;(3)热度提升(Hotness Promotion),它定期将高热度的前缀树键值缓存从CPU内存迁移到GPU内存。这些机制结合高效的I/O和计算流程,确保GPU内存被分配给最关键的前缀,同时掩盖了与键值缓存传输相关的I/O开销。这些改进显著提高了缓存命中率,降低了推理延迟,并提升了吞吐量。在SGLang框架中实现的HotPrefix,与启用前缀共享的vLLM相比,可将推理延迟降低2.25倍,并提升吞吐量;与SGLang本身相比,它还能进一步将延迟降低2倍,吞吐量提升1倍。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号