论文部分内容阅读
随着互联网的迅猛发展,在全球各地每时每刻都在产生大量的推特数据信息。如何在这大量数据中去筛选满足用户需求的信息变得尤为重要,查询扩展方法在推文检索中广泛应用,可以有效的解决这一问题。查询扩展主要包含两个部分:一是筛选与原始查询词相关的推文作为语料库;二是筛选语料库中与原始查询最相关的词语作为待扩展词。传统查询扩展方法主要使用BM25算法,VSM算法以及TF-IDF算法等对原始查询和推文进行相关性比较,筛选出满足用户需求的推文作为语料库。这种方法存在两个不足:一是含有较少查询词的推文被漏选,二是含有较多查询词的不相关推文被错误的筛选。针对此问题本文在以下几个方面进行研究和创新:(1)提出基于推文聚类的查询扩展方法,并对其进行设计和完成。该方法对筛选推文作为语料库这一过程进行改进,并将传统的逐条推文与原始查询词进行相关性比较的推文筛选方法进行优化。该方法先对推文进行聚类,根据与原始查询词的相关性对聚好类的推文进行筛选,得到的推文集合包含了相同语义的所有推文。再比较推文类与原始查询的相关性,筛选出最满足用户需求的推文类。这一方法很好的解决了含有较少查询词的相关推文被漏选的问题。该方法对比BM25算法对两种不同的查询扩展方法在平均准确率(mAP)上分别提升了11.4%和12.0%,比VSM算法分别提升了14.9%和15.3%,比TF-IDF算法分别提升了15.8%和13.7%。(2)提出基于主题划分的查询扩展方法。通过对不相关推文中含有较多查询词而被筛选这一主题偏移问题进行改进,使得含有查询词的不相关推文被有效的过滤。该方法将推文进行主题划分,筛选出满足用户查询的主题下的推文集合作为语料库,有效的去除了含有查询词但并不属于该主题的推文。该方法对比BM25算法对两种不同的查询扩展方法在平均准确率(mAP)上分别提升了13.2%和13.9%,比VSM算法分别提升了16.7%和17.3%,比TF-IDF算法分别提升了17.7%和15.6%。(3)经过分别对主题划分方法和推文聚类方法在查询扩展中的应用进行测试。本文对两种查询扩展方法的优缺点进行分析,发现结合使用两种方法对检索指标有着更高的提升。