论文部分内容阅读
随着互联网技术的发展和信息时代的到来,海量数据呈现在人们面前,如何从如此浩瀚且日益增长的数据中快速而精准地获取用户所需要的信息,一直是信息检索领域中研究的关键问题。在信息检索的过程中,查询词通常具有简短、概要以及不明确的特点,无法准确表达用户的查询意图,从而导致检索结果不精确。此外,由于用户的背景和需求存在差异性,传统的检索模型由于其通用性已无法满足不同用户在条件相同情况下的不同需求,难以得到因人而异的检索结果。近年来,由于社会化标注系统的出现以及个性化思想的提出,不少学者开始探究将社会化标注运用到个性化信息检索中,其有效性已经得到了很好的验证,但仍存在着一定的改善空间。本文主要探究如何更加高效地利用社会化标注信息来改善个性化信息检索的效果。用户利用标签对网页资源进行标注的行为通常代表了用户对于网页资源的见解,同时这些标签信息也可视为网页内容的有力扩充,利用它们对文档的个性化得分进行扩展,是现有个性化排序方法中一种常用的手段。但在现实中,一方面出于一些隐私保护机制,用户所标注的网页及其使用的标签极为有限,数据稀疏的问题在社会化标注系统中经常出现,这无疑给个性化信息检索带来了一定的困难;另一方面,用户的兴趣各异,对不同网页的偏好程度也不尽相同,而在已有的个性化排序方法中,并未过多考虑到用户与网页内容之间的关系,导致计算的文档个性化检索得分并不准确。基于此,本文在前人研究的基础上,主要有以下两个方面的贡献:(1)本文提出了一种结合词向量技术和用户相似网络的个性化排序方法。该方法首先利用用户共同标注过的网页构建用户相似网络,使相似用户的判断更为准确。之后为减少社会化标注信息稀疏性造成的影响,利用用户相似网络找出相似用户,对用户在不同文档上的标注信息进行扩充,以提高用户个性化得分部分的准确性。其次,考虑到词与词之间可能存在的语义联系,利用词向量技术将词转化为更细粒度的表现形式,使得语义相似的词语在该向量空间中距离更近,在查询信息与网页内容扩充部分进行匹配得分时,可以有效提高这部分得分的准确性。最后结合二者更新文档排序得分,得到更加精准的个性化信息检索结果。实验验证了该方法对于个性化信息检索的准确率有一定的提升,可以改善用户的检索体验。(2)针对当前个性化信息检索中没有充分考虑到用户与网页内容之间关系的问题,在前一步工作的基础上,尝试利用已有的社会化标注信息,挖掘出社会化标注系统中用户、标签及网页资源三者之间的关系,引入用户对网页内容的偏好信息,提出了一种融合用户兴趣偏好的个性化排序方法。该方法首先对网页资源进行分类,将不同类别的网页资源分开,然后通过构建用户兴趣模型计算得到用户对于不同类别网页的偏好程度,再利用得到的偏好程度对网页资源进行个性化处理,从而更好地改善信息检索的效果。在真实实验数据集上的实验表明,本文所提的方法能较好地提升个性化检索结果的准确率,从而提高用户的满意度。