论文部分内容阅读
随着移动互联网技术的发展,无处不在的搜索已经成为人类日常生活的重要组成部分。互联网上的信息量在过去十几年中呈现出爆炸式的增长,如何从海量信息资源中找出与用户给定需求(查询)最为相关的信息成为当前搜索引擎面临的主要难题,这就需要搜索引擎提供有效的信息检索模型。因此,找出更加有效的检索模型是信息检索研究工作中一项长期的挑战。在信息检索建模中,确定索引词项在文档中的重要性是一项重要内容。以词袋(bag-of-word)的形式表示文档以建立检索模型的方法中大多基于词项独立性假设,仅使用词项频率(Term Frequency,TF)和词项逆文档频率(Inverse Document Frequency,IDF)的函数来计算词项在文档中的权重,并未考虑词项之间的依赖关系。本文采用基于词项图(Graph-of-word)的文档表示形式以捕获词项间的依赖关系,采用马尔科夫链计算方法度量词项在文档中的重要性,提出了一种新的基于词重要性(Term Importance,TI)的信息检索图模型TI-IDF。本文的主要创新工作包括:(1)新的文档词项图表示形式;通过对文档进行分句,以句子为单位构建每篇文档的词项图(无向有权图)。在文档词项图中,以顶点表示文档中出现的索引词项,任意两个词项之间的无向边表示这两个词项在文档的某一句子中共现,无向边的权重则表示两个词项在该文档中共现的句子个数。(2)词项重要性(TI)度量;根据构建的文档词项图,得到该文档内词项间的共现矩阵,进而计算词项间的概率转移矩阵,并通过采用马尔科夫链计算方法确定词项在文档中的重要性。(3)基于词重要性的信息检索图模型TI-IDF。将词项在文档中的重要性(TI)替代传统基于词袋形式表示文档的检索模型中的词项频率(TF),并结合TF?IDF词项权重计算框架以及已有的TF归一化方法,通过对比实验确定了本文提出的检索图模型TI-IDF的词项权重计算方案。我们在标准数据集上进行了实验,结果表明,与传统的检索模型相比,本文提出的检索图模型TI-IDF具有更好的鲁棒性,它的检索结果均优于BM25模型,且在大多数情况下优于BM25的扩展模型、TW-IDF等模型。