基于稠密向量的索引技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:w34gss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本检索通常分为两个阶段,初始检索和重排序。初始检索目标是以较低的代价从整个文档集合中检索出一小部分文档,使其包含尽可能多地相关文档,即具有较高的召回率。初始检索过程通常依赖基于符号表示的倒排索引,由于词不匹配问题,一些不包含查询项中的词汇的相关文档难以被召回。随着神经表示方法的兴起,文本可以被表示成稠密向量,在向量空间较好的保留文本之间的语义关系。语义相似的文本在向量空间余弦距离较近,因此稠密向量表示可以被用作语义召回,克服传统基于关键词匹配的缺陷。传统的倒排索引利用了文本基于符号表示的稀疏性,因此不再适用于稠密向量。基于稠密向量表示进行初始检索面临两个核心挑战:首先是如何组织稠密向量,对其建立高效索引,使得可以在给定查询向量时快速查找和其相似的向量;其次是如何利用稠密向量进行初始检索,由于文本检索中精确匹配信号起着重要的作用,因此结合符号搜索和稠密向量索引进行快速检索也是一个核心挑战。  稠密向量组织的已有工作主要分为两大类:在原始向量空间建立索引,减少距离计算次数;寻求更简洁的表示,减少距离计算代价。前者的代表工作为近邻图索引,然而邻居的选择并非最优;后者的代表工作为哈希索引,然而原始数据被过分压缩,不可避免地丢失了原始向量的结构信息。本文基于已有工作的不足之处进行改进,提出了多样性和近邻度平衡的图索引和基于哈希索引的邻域投票搜索机制。信息检索中利用稠密向量的工作主要关注在重排序阶段,本文对利用稠密向量进行初始检索进行了研究,提出了平行搜索机制和顺序搜索机制。论文的具体研究工作如下:  为了高效检索稠密向量,本文提出了方向多样性和近邻度平衡的图索引结构,即k-多样化最近邻图。该索引平衡了邻居的方向多样性和距离近邻度,因此同时具有较好的探索能力和利用能力,即在图上搜索时可以探索多个不同的方向,也可以较好找到邻居的邻居。本文提出了一种新视角,将索引的构建过程看作搜索结果多样化,基于最大间隔多样化准则提出了高效构建索引的算法。实验表明本文提出的索引性能优于多样化图和近邻图。  哈希表示将原始向量表示为简洁的二元编码序列,因此具有距离计算代价低和存储开销小的优点,然而数据被过分压缩导致部分结构信息不可避免地损失。为了缓解这一问题,本文提出了邻域投票搜索机制,将原始空间的k-最近邻引入到汉明空间来增强检索效果,并进一步提出了聚合哈希表结构来加速线上搜索过程。实验表明本文提出的搜索机制基于不同的哈希表示方法,均可以显著提升检索效果同时保持较好的检索效率。  文本初始检索通常基于符号表示的索引和搜索机制,然而由于词不匹配现象,不包含查询项中词汇的相关文档难以被召回。本文研究了稠密向量在初始检索中的应用,在经典的倒排索引之外,引入稠密向量索引,并进一步提出平行搜索机制和顺序搜索机制。平行搜索机制分别基于符号索引和稠密向量索引进行检索,而顺序搜索机制首先基于符号索引检索出精确匹配文档,然后基于精确匹配文档在稠密向量索引扩展其相似文档,检索语义匹配文档。实验表明本文提出的方法在较小的额外代价下,得到了更好的相关文档召回率。  综上所述,针对稠密向量组织的挑战,本文提出了多样性和近邻度平衡的图索引,以及基于哈希的邻域投票搜索机制。针对利用稠密向量进行初始检索的挑战,本文在传统基于符号的倒排索引之外,引入稠密向量索引,进一步提出平行搜索机制和顺序搜索机制,获得了更好的检索效果。
其他文献
随着计算机技术的日益发展和林业调查技术的变革,以及森林可持续经营的思想对森林资源信息和利用的要求,促使可视化在林业领域中的研究日渐深入。用可视化技术展示林分信息,
讲故事作为有效的教育手段,被广泛运用于儿童教育。随着计算机技术的发展,许多科研机构纷纷研究计算机支持的讲故事系统,给儿童提供新的讲故事方式。故事作为一种载体,需要丰富的
半导体技术、微系统技术、通信技术、计算机技术、自动控制和人工智能等技术的飞速发展孕育一种新型的测控网络:无线传感器网络。无线传感器网络是一种以数据为中心的自组织无
随着集成电路技术的快速发展,工艺特征尺寸不断减小,产品的性能不断提高,在单一芯片上实现全部系统功能的SoC(System on a Chip,系统级芯片)设计技术逐渐走向成熟,促进了嵌入式领
随着IP技术的发展和日趋成熟,以VoIP(Voice over Internet Protocol)为代表的NGN(Next Generation Network)通信作为一种典型的宽带应用正面临着前所未有的发展机遇。SIP(Ses
“存储墙(Memory Wall)”问题已经提出了10多年,学术界、工业界都在努力地改善CPU与Memory之间的差距。随着多核技术的发展,“存储墙”问题更严峻,内存的延迟与带宽都成为了计算
尽管生物测定学已经在许多领域中得以广泛应用,但是印鉴识别作为一种个人身份认证被广泛应用于日本等一些亚洲国家,印鉴应用于多种类型的文档。随着信息化的普及和办公自动化程
随着Internet网络技术的不断发展和应用领域的日益拓宽,许多新的服务如网上直播、远程诊疗等不断展现出来,开展这些服务离不开网络环境中的组播技术的支持。组播技术是相对于
通过引入欧氏空间的连续自映射不动点算法提出求解函数优化问题的改进遗传算法,并提出了两种分别针对单目标和多目标优化问题算法模型。这两模型都将剖分理论引入遗传算法,对
目前,在P2P文件共享系统中,以色情和政治不良倾向为代表的敏感资源广为传播,对社会造成了很坏的影响,如何识别并过滤这些敏感资源,成为当前P2P文件共享系统所面临的一个共同技术挑