近日,我院王洪亚老师课题组与华为公司合作的向量数据库研究工作被CCF A类会议ICDE 2025接收,这也是该课题组在高维最近邻搜索领域取得的系列重要进展之一。到目前为止,课题组已在数据库和高维信息检索的核心问题上取得了系列重要进展,发表了多篇CCF A/B类会议论文。
近年来,大型语言模型(LLMs)得到快速的发展和应用。为解决大模型幻觉的问题,实际应用中普遍使用向量数据库加大模型的检索增强生成(RAG)技术为大模型提供外挂知识库,通过向量检索获取相应知识,提升大模型回答的准确性和时效性。目前许多商用向量数据库系统如Milvus、Pinecone、Redis和ElasticSearch等都采用了分层可导航小世界网络(HNSW)算法构建索引支撑高维向量相似度检索。
图1. LSG工作流程图
此次接受论文《Boosting Accuracy and Efficiency for Vector Retrieval with Local Scaling Graph》针对HNSW算法存在的精确度饱和与长尾查询两个性能问题,提出了一种全新的近似最近邻索引框架——LSG(Local Scaling Graph)。LSG使用Local Scaling技术将原始空间中的点映射到隐式空间中,然后在变换后的空间中构造接近图,最后返回原始空间中执行标准图遍历来处理查询。实验表明,在12个公开数据集上,LSG相比HNSW取得更高的查询精度,且查询性能最多提升了两个数量级。目前,课题组正与华为公司合作将LSG实现在openGauss开源数据库系统中。
图2. LSG相对HSNW的加速比
ICDE是电气与电子工程师协会(IEEE)举办的旗舰会议,与SIGMOD、VLDB并称数据库三大顶会,也是中国计算机学会(CCF)推荐的A类国际会议,主要聚焦设计、构建、管理和评估高级数据密集型系统和应用等研究问题,在国际上享有盛誉并具有广泛的学术影响力。