论文部分内容阅读
当前,随着社会经济发展和企业信息化建设不断推进,企业信息资源愈加丰富,同时信息资源呈现分布散乱、形态多样化等特点,使查找信息变的更加困难;另外,由于企业文档信息涉及商业机密,利用商用搜索引擎检索会让公司承担经济风险。因此,在企业内部建立信息资源检索系统,并对检索结果合理有效排序显得越来越重要。为此,本文通过对搜索引擎排序算法展开深入研究,在基于传统搜索排序算法的基础上进行创新,一方面通过对初始迭代向量预估计和引入网页排名波动率作为算法停止迭代计算准则对传统PageRank算法进行改进,另一方面从用户点击行为角度将查询词历史点击量对文档贡献率引入到排序算法中,有效地提升了检索准确率和提高了用户满意度。首先,本文介绍了搜索引擎的工作流程,深入研究搜索引擎的技术原理;介绍了常用的搜索引擎排序算法,重点研究了经典排序算法PageRank算法;对搜索引擎用户行为进行研究,重点分析搜索引擎用户点击行为的可靠性,根据多个特征判断搜索引擎用户点击与查询的相关性;深入分析了开源Lucene的评分机制,其核心思想是根据查询词与网页内容相关度的大小进行排序。然后,提出改进的PageRank算法和对基于用户点击行为模型的排序算法的改进。首先对PageRank算法加以研究改进,从节点入度角度对其初始迭代向量预估计和引入网页排名波动率作为PageRank算法停止迭代计算准则,减少了迭代次数,加速了迭代过程;其次,通过对用户点击行为的挖掘,分析用户点击行为特征的可靠性,提出了查询词历史点击量对文档贡献率,从用户行为角度影响排序结果。最后,进行实验及结果分析。通过数值实验对比,验证改进的PageRank算法的迭代次数比传统的PageRank算法的迭代次数要少,减少了计算时间;通过比较搜索结果查准率,验证融合了改进的PageRank算法和用户点击行为模型的排序算法改善了排序结果,提高了搜索准确率。