基于Lucene的个性化搜索引擎研究与实现

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:glsdap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着WWW的发展,基于WWW的信息获取技术——搜索引擎技术出现并得到迅速发展。由于互联网的开放性,使搜索引擎可以面向普通用户,用户需求进一步推动其发展。个性化搜索引擎正是在考虑用户兴趣差异的基础上,借助数据挖掘技术对用户搜索的信息进行再处理,从而使返回给用户的搜索结果更加贴近用户真实需求。随着信息爆炸性增长及信息多元化发展,个性化搜索引擎逐渐成为研究热点和发展趋势。本文对它的主要技术进行研究并实现了一个基于Lucene的个性化搜索引擎原型系统。  本文针对个性化搜索引擎所做的主要工作体现在以下几个方面:  1.分析个性化搜索引擎的体系结构。个性化搜索引擎在体系结构上不同与传统搜索引擎的部分在于其个性化模块部分,该模块负责用户兴趣模型的建立和更新、网页的个性化排序。  2.用户兴趣模型的建立。个性化搜索引擎的关键就在于用户兴趣信息的获取,本文通过分析用户历史搜索记录,采用TF-IDF算法得出用户特征词的权重值,若该特征词的权重值大于某个阈值时,将该特征词设定为用户兴趣词,将其保存到用户兴趣库。  3.提出 SLR排序算法。该算法包括两个主要计算过程,一是计算用户兴趣词和页面内容的相似度,二是通过分析页面的入链和出链数量计算页面的链接得分,这两个计算步骤分别从页面内容和页面结构上分析了该页面对于用户的重要程度,从而使返回的页面排序更加符合用户的需求。  4.实现了一个基于 Lucene的个性化搜索引擎原型系统。该系统选择扩展性好的Hertitrix抓取网页信息;使用Lucene对网页信息建立索引及对网页信息进行检索。通过对该系统的性能检测,有较好的准确率,基本达到本课题的预期目标。
其他文献
阅读教学就是学生、教师、文本之间的对话,阅读就是收集处理信息、认识世界、发展思维、获得审美体验的重要途径.同时,教师可以通过在阅读教学中提问学生来培养学生的思维能
进入新世纪以来,随着人们对图书馆认识的不断加深,以及因图书馆精神缺失而引发的社会问题的凸显,图书馆界开始认识到图书馆精神的重要性,以纪念中国近代图书馆创建一百周年为
[目的/意义]基于学术授信思想提出一种能够衡量图书学术影响力的指标——图书Z指数.[方法/过程]根据图情领域高影响力(h指数≥5)学者名单,从CSSCI采集这些学者的图书被引信息
风电可以促进低碳产业经济增长、有效减缓气候变化,有着巨大的经济、社会、环保价值和发展前景。本文从专利角度对各国风电发展情况进行探究。首先选择全球风电发展领先的几
随着中国经济的发展,素质教育也越来越受重视,但是在很多农村地区,经济发展缓慢限制了教育资源,农村的学生并不像城市学生那样能接受全面的英语口语教育.同时由于农村英语师
长久以来,公共图书馆开展公共文化服务,为全社会打开知识、信息的大门,在促进社会民主、和谐地发展等方面发挥着极大作用,这成为其获得社会关注与支持的主要原因。在国家实施
学习能量(Learning Power)是有关学会学习的国际前沿理念.与“学习力”不同,“学习能量”是一个基于生态学习理论的整合概念,是课堂生态系统的核心.“学习能量”的本质是所有
公共图书馆面向中小企业的信息服务,不仅有传统的信息服务内容,也有目前以网络为技术支撑的服务模式。中小企业作为特别的企业类型在市场竞争环境下由于自身条件限制和环境影响
当前教学改革渗透到各学科教学中,高中体育与健康在探索组织教法的创新,体育教师只有灵活运用教学手段,寻求适合学生身心特征的教学方法,才能有效调动学生的学习积极性,教学
1 从用户需求的角度分析图书馆和INTERNETrn1.1 图书馆提供社会服务的特性分析rn从提供的信息内容来考虑问题,图书馆侧重于知识性、史料性,并且提供查找解决方案和知识的系统