论文部分内容阅读
文本检索通常分为两个阶段,初始检索和重排序。初始检索目标是以较低的代价从整个文档集合中检索出一小部分文档,使其包含尽可能多地相关文档,即具有较高的召回率。初始检索过程通常依赖基于符号表示的倒排索引,由于词不匹配问题,一些不包含查询项中的词汇的相关文档难以被召回。随着神经表示方法的兴起,文本可以被表示成稠密向量,在向量空间较好的保留文本之间的语义关系。语义相似的文本在向量空间余弦距离较近,因此稠密向量表示可以被用作语义召回,克服传统基于关键词匹配的缺陷。传统的倒排索引利用了文本基于符号表示的稀疏性,因此不再适用于稠密向量。基于稠密向量表示进行初始检索面临两个核心挑战:首先是如何组织稠密向量,对其建立高效索引,使得可以在给定查询向量时快速查找和其相似的向量;其次是如何利用稠密向量进行初始检索,由于文本检索中精确匹配信号起着重要的作用,因此结合符号搜索和稠密向量索引进行快速检索也是一个核心挑战。 稠密向量组织的已有工作主要分为两大类:在原始向量空间建立索引,减少距离计算次数;寻求更简洁的表示,减少距离计算代价。前者的代表工作为近邻图索引,然而邻居的选择并非最优;后者的代表工作为哈希索引,然而原始数据被过分压缩,不可避免地丢失了原始向量的结构信息。本文基于已有工作的不足之处进行改进,提出了多样性和近邻度平衡的图索引和基于哈希索引的邻域投票搜索机制。信息检索中利用稠密向量的工作主要关注在重排序阶段,本文对利用稠密向量进行初始检索进行了研究,提出了平行搜索机制和顺序搜索机制。论文的具体研究工作如下: 为了高效检索稠密向量,本文提出了方向多样性和近邻度平衡的图索引结构,即k-多样化最近邻图。该索引平衡了邻居的方向多样性和距离近邻度,因此同时具有较好的探索能力和利用能力,即在图上搜索时可以探索多个不同的方向,也可以较好找到邻居的邻居。本文提出了一种新视角,将索引的构建过程看作搜索结果多样化,基于最大间隔多样化准则提出了高效构建索引的算法。实验表明本文提出的索引性能优于多样化图和近邻图。 哈希表示将原始向量表示为简洁的二元编码序列,因此具有距离计算代价低和存储开销小的优点,然而数据被过分压缩导致部分结构信息不可避免地损失。为了缓解这一问题,本文提出了邻域投票搜索机制,将原始空间的k-最近邻引入到汉明空间来增强检索效果,并进一步提出了聚合哈希表结构来加速线上搜索过程。实验表明本文提出的搜索机制基于不同的哈希表示方法,均可以显著提升检索效果同时保持较好的检索效率。 文本初始检索通常基于符号表示的索引和搜索机制,然而由于词不匹配现象,不包含查询项中词汇的相关文档难以被召回。本文研究了稠密向量在初始检索中的应用,在经典的倒排索引之外,引入稠密向量索引,并进一步提出平行搜索机制和顺序搜索机制。平行搜索机制分别基于符号索引和稠密向量索引进行检索,而顺序搜索机制首先基于符号索引检索出精确匹配文档,然后基于精确匹配文档在稠密向量索引扩展其相似文档,检索语义匹配文档。实验表明本文提出的方法在较小的额外代价下,得到了更好的相关文档召回率。 综上所述,针对稠密向量组织的挑战,本文提出了多样性和近邻度平衡的图索引,以及基于哈希的邻域投票搜索机制。针对利用稠密向量进行初始检索的挑战,本文在传统基于符号的倒排索引之外,引入稠密向量索引,进一步提出平行搜索机制和顺序搜索机制,获得了更好的检索效果。