HARMONY:一种可扩展的分布式向量数据库,用于高吞吐量的近似最近邻搜索

《Proceedings of the ACM on Management of Data》:HARMONY: A Scalable Distributed Vector Database for High-Throughput Approximate Nearest Neighbor Search

【字体: 时间:2025年11月07日 来源:Proceedings of the ACM on Management of Data

编辑推荐:

  分布式向量数据库多粒度分区策略研究,通过维度和向量双重划分优化负载均衡,结合早停剪枝机制降低通信开销,实验验证吞吐量提升4.63倍,性能优于传统方法58%。

  

摘要

近似最近邻搜索(ANNS)在各种数据密集型应用中至关重要,包括推荐系统、图像检索和机器学习。将ANNS扩展到能够在单台机器上处理数十亿个高维向量时,会在内存容量和处理效率方面面临重大挑战。为了解决这些问题,分布式向量数据库利用多个节点来并行存储和处理向量。然而,现有的解决方案通常存在负载不平衡和高通信开销的问题,这主要是由于传统的划分策略未能有效分配工作负载。在本文中,我们介绍了一个名为Harmony的分布式ANNS系统,该系统采用了一种新颖的多粒度划分策略,结合了基于维度和基于向量的划分方法。这种策略确保了计算负载在所有节点之间的均衡分配,同时有效降低了通信成本。此外,Harmony还引入了一种提前终止剪枝机制,该机制利用了基于维度划分的距离计算的单调性,从而显著减少了计算和通信开销。我们在多种真实世界数据集上进行了广泛实验,结果表明Harmony的性能优于领先的分布式向量数据库,在四个节点上平均吞吐量提高了4.63倍,并且在处理不平衡工作负载时,其性能比传统分布式系统提高了58%。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号