论文部分内容阅读
摘要:文档检索的相关性是依据用户的搜索需求对搜索结果的一种符合用户期望的排名。为了提高用户对检索系统的满意度,考虑到查询与文档大多由名词和动词组成,而且在不同上下文中词性可以起到语义消岐的作用;另外,考虑到文档的不同字段具有不同的重要程度,因此词位置加权将有效改进检索系统的性能。由于默认的Lucene排序算法未考虑文档不同字段、查询词词性和词性分布对检索相关性排名的影响,因此在Lucene排序算法的基础上,提出一种融合词性与位置信息的改进算法。通过对比实验分析,该改进算法能够有效提升检索系统的性能,相比默认的Lucene排名算法,准确率、召回率与F值都有不同程度的提升。
关键词:BM25算法;信息检索;相关性排序;Lucene;排序算法;垂直搜索
中图分类号:TP391
关键词:BM25算法;信息检索;相关性排序;Lucene;排序算法;垂直搜索
中图分类号:TP391