企业搜索引擎排序技术的研究

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:lytmxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,随着社会经济发展和企业信息化建设不断推进,企业信息资源愈加丰富,同时信息资源呈现分布散乱、形态多样化等特点,使查找信息变的更加困难;另外,由于企业文档信息涉及商业机密,利用商用搜索引擎检索会让公司承担经济风险。因此,在企业内部建立信息资源检索系统,并对检索结果合理有效排序显得越来越重要。为此,本文通过对搜索引擎排序算法展开深入研究,在基于传统搜索排序算法的基础上进行创新,一方面通过对初始迭代向量预估计和引入网页排名波动率作为算法停止迭代计算准则对传统PageRank算法进行改进,另一方面从用户点击行为角度将查询词历史点击量对文档贡献率引入到排序算法中,有效地提升了检索准确率和提高了用户满意度。首先,本文介绍了搜索引擎的工作流程,深入研究搜索引擎的技术原理;介绍了常用的搜索引擎排序算法,重点研究了经典排序算法PageRank算法;对搜索引擎用户行为进行研究,重点分析搜索引擎用户点击行为的可靠性,根据多个特征判断搜索引擎用户点击与查询的相关性;深入分析了开源Lucene的评分机制,其核心思想是根据查询词与网页内容相关度的大小进行排序。然后,提出改进的PageRank算法和对基于用户点击行为模型的排序算法的改进。首先对PageRank算法加以研究改进,从节点入度角度对其初始迭代向量预估计和引入网页排名波动率作为PageRank算法停止迭代计算准则,减少了迭代次数,加速了迭代过程;其次,通过对用户点击行为的挖掘,分析用户点击行为特征的可靠性,提出了查询词历史点击量对文档贡献率,从用户行为角度影响排序结果。最后,进行实验及结果分析。通过数值实验对比,验证改进的PageRank算法的迭代次数比传统的PageRank算法的迭代次数要少,减少了计算时间;通过比较搜索结果查准率,验证融合了改进的PageRank算法和用户点击行为模型的排序算法改善了排序结果,提高了搜索准确率。
其他文献
主观文字试题是当前中文在线考试系统进行考核的重要内容之一。如何利用计算机对主观文字试题(以下简称“主观题”)进行阅卷与评判一直是考试系统自动化要解决的关键问题,也是自
传统入侵检测系统在检测速率以及准确度方面已经不能满足现在网络安全的需要,入侵检测技术中的协议分析方法成为研究的重点之一。针对当前协议分析技术所存在的技术单一、无
VNC(Virtual Network Computing,虚拟网络计算)是AT&T剑桥实验室所研发的屏幕分享与远端操作工具,它支持多种操作系统,可以用于实现远程办公,远程技术支持等多种应用。随着互
随着商业化信息技术和网络技术的迅猛发展,基于B/S模式的企业级网络应用技术日益成熟并进入了人们生活的方方面面。企业和个人在互联网上借助各种网页的形式共享自己的信息并
电阻抗成像技术(Electrical Impedance Tomography,简称EIT)是西方发达国家从二十世纪七十年代末开展并迅速发展起来的一门新兴技术,目前主要有两大应用领域:工业过程电阻抗成像和
伴随着Internet的普及和发展,电子邮件以其方便快捷、低成本的优点得到迅速而广泛的应用,并成为人们交流沟通的主要工具之一。与此同时,垃圾邮件也越来越泛滥,最近,图片型垃
在信息化不断发展的今天,对等网络(P2P)作为一种优势显著的网络结构已经成为不可或缺的网络应用系统。P2P在文件共享、协同计算等领域都有着广泛的应用,并且具有较大的发展空
全极化合成孔径雷达具有全天时全天候观测特性,并且能够利用自身优势得到极为丰富的极化信息,是非常理想的海上溢油观测工具。在最近的几年当中,有很多先进的雷达设备产生,比
学位
针对向量空间模型表示法的局限性,采用潜在语义索引在语义层面进行处理,是近几年提出的一种文本表示方法。潜在语义索引是利用统计计算导出文本中的潜在的语义进行索引,而不