基于用户日志分析的搜索引擎排序算法的设计与实现

被引量 : 6次 | 上传用户:damitanqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展使得如何从海量信息中查找有效的数据变得越来越重要,搜索引擎通过对网络中的信息进行爬取和组织,为用户提供了优质的查询服务接口,它的出现使得目标信息的获取变的更为便捷。搜索引擎已经成为互联网用户获取网络资源所必不可少的工具,但由于互联网信息量巨大,搜索引擎也无法每次都返回让人满意的查询结果:首先,当用户输入一个查询,搜索引擎会返回数量众多的相关结果,而用户最为关心的结果却没能显示在最前面或最显眼的位置;其次,由于用户的对搜索引擎了解程度不同,大部分用户不能通过检索请求十分准确的表达检索想法,从而导致搜索结果的不准确性。因此,通过用户的搜索行为了解用户的查询意图对于改善搜索引擎结果排序的准确性具有重要意义。本文通过对搜索引擎查询日志进行统计分析,由大量用户的行为找出用户访问的一般性规律,进而优化网页排序算法,引导最终的结果排名,提高搜索引擎的结果排序的准确性。论文工作主要包括两个方面:(1)分析搜索引擎用户查询日志。研究搜索日志的各个特征及其相互之间的联系,总结中文搜索引擎用户的一些基本行为规律,并根据对不同时期搜索日志的分析,发现中文搜索引擎用户的搜索行为变化趋势,为以后的搜索引擎用户行为分析提供了基础。(2)对Lucene的原始排序算法的进行优化。原始算法是基于向量空间模型的TF-IDF算法,针对该算法只重视关键词词频和文档的匹配度,而不考虑网页自身的特点,设计了一种基于词频匹配度和网页自身特点相结合的网页排名算法。根据大量用户查询行为日志研究出的用户搜索行为趋势,在原有的排序算法基础上增加用户认可度排序因子,可以根据搜索引擎的需要调整该因子的权重系数使网页排序最优化。这样可以在既保证了搜索结果的相关性和匹配度的前提下,同时使搜索返回结果的排序更加符合用户的搜索需求。本文设计的搜索引擎系统通过boost因子对排序算法做出改进,通过对原始排序算法以及结合用户反馈信息的优化后排序算法的返回结果进行了实验对比分析,验证了优化后排序算法对于查询返回结果的排列顺序的改善效果,为未来在搜索引擎用户查询意图方面的研究提供了参考。
其他文献
由于毒品犯罪手法的不断翻新,案情复杂多变,以及有关部门在执法实践中尚存在一些难点、疑点,给有关部门开展打击毒品犯罪工作带来了一些消极的影响。本文首先分析了当前毒品
公文处理是一项具有特定功用、特定方法程序、特定内容与形式的活动。为保证公文处理活动有序有效,必须顺应其内在的特殊规律,遵循一定的原则。公文处理对客观规律的正确反映
信息化条件下,炮兵作战所面临的新困难新问题越来越多,对炮兵作战指挥的要求越来越高,笔者从指挥体制、指挥方式、指挥手段等角度入手系统的研究了炮兵作战指挥问题。
目前,上海几乎所有高校普遍开展了新生心理普测工作。然而,对于在新生团体心理测量中筛选出的需要予以关注的对象如何及时、有效地实施跟进工作,始终是一项挑战。我们采用团
<正>只有保持经济可持续稳定增长,实现经济结构调整转型,才能为人民币国际化的发展保驾护航。人民币国际化正式启动五年来,取得了令人瞩目的成就。展望下一个五年乃至未来,人
目的:比较4种口服补钙制剂对大鼠生长发育的促进作用及钙吸收率。方法:将4周龄SD雌性大鼠随机分为乳酸钙颗粒组、葡萄糖酸钙锌口服液组、肾骨颗粒组、维D钙咀嚼片组及低钙对
《劳动合同法》在市场经济深化、企业用工制度变化的背景下开始起草,在立法的过程中经历的争论主要围绕立法宗旨与价值展开。《劳动合同法》的出台,本质上是对劳资不平等的社
<正> 心肌炎指心肌本身的炎性病变,在尸检中出现率为5%。爆发型心肌炎由于其可出现恶性心律失常,甚至心源性休克,严重者危及生命。故精心的治疗和护理显得尤为重要,我们于今年
新刑诉法明确规定了非法证据排除规则,审判时非法证据排除程序主要体现在两个阶段,即庭前会议阶段和法庭审理阶段。从诉讼公正和效率两个方面看,非法证据排除在法庭审理之前
《韦氏儿童智力量表-第四版》于2003年在北美公开发行和使用以来,得到众多学校心理学、儿童心理学和临床心理学专家的好评。与以往韦氏儿童智力量表相比,第四版本不再使用单