HARMONY:一种可扩展的分布式向量数据库,用于高吞吐量的近似最近邻搜索
《Proceedings of the ACM on Management of Data》:HARMONY: A Scalable Distributed Vector Database for High-Throughput Approximate Nearest Neighbor Search
【字体:
大
中
小
】
时间:2025年11月07日
来源:Proceedings of the ACM on Management of Data
编辑推荐:
分布式向量数据库多粒度分区策略研究,通过维度和向量双重划分优化负载均衡,结合早停剪枝机制降低通信开销,实验验证吞吐量提升4.63倍,性能优于传统方法58%。
摘要
近似最近邻搜索(ANNS)在各种数据密集型应用中至关重要,包括推荐系统、图像检索和机器学习。将ANNS扩展到能够在单台机器上处理数十亿个高维向量时,会在内存容量和处理效率方面面临重大挑战。为了解决这些问题,分布式向量数据库利用多个节点来并行存储和处理向量。然而,现有的解决方案通常存在负载不平衡和高通信开销的问题,这主要是由于传统的划分策略未能有效分配工作负载。在本文中,我们介绍了一个名为Harmony的分布式ANNS系统,该系统采用了一种新颖的多粒度划分策略,结合了基于维度和基于向量的划分方法。这种策略确保了计算负载在所有节点之间的均衡分配,同时有效降低了通信成本。此外,Harmony还引入了一种提前终止剪枝机制,该机制利用了基于维度划分的距离计算的单调性,从而显著减少了计算和通信开销。我们在多种真实世界数据集上进行了广泛实验,结果表明Harmony的性能优于领先的分布式向量数据库,在四个节点上平均吞吐量提高了4.63倍,并且在处理不平衡工作负载时,其性能比传统分布式系统提高了58%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号