搜索引擎个性化检索及用户推荐功能的设计与实现

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:TNT2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网上信息量剧增,人们从海量信息中挖掘出可用信息日益困难。目前人们采用搜索引擎的方式在互联网上检索信息,传统搜索引擎,如国外的Google,yahoo,国内的百度,天网等,都迅速发展起来。截止2010年6月,中国网民数量增长到4亿,网民中使用搜索引擎的比率大于百分之七十,国外的搜索引擎使用比率更高,因此搜索引擎的市场前景看好。然而通用搜索引擎的结果面向大多数用户,当检索词相同时,返回给用户的结果一致。事实上,随着年龄,性别,学历,专业等的不同,不同用户对同一检索词的兴趣点不一致。个性化搜索引擎试图通过分析文档结构、用户浏览行为信息及用户对文档的评价信息,建立用户的兴趣模型,指导搜索引擎的查询结果以及结果排序,力图满足每个用户的需求。本文主要实现了搜索引擎中的三个功能:1、中文分词技术。2、实现了用户推荐功能。3、实现了个性化检索,对相同查询词根据用户兴趣不同返回更适合用户兴趣点的结果。中文分词是自然语言处理的范畴,是搜索引擎查询和建立索引的基础。目前中文分词算法比较常用的有基于词典的分词算法,基于统计的分词算法和基于规则的分词算法。基于词典的分词算法设计思想简单,为大多数程序员所使用。但是中文分词存在两大难点问题,歧义的消除和未登录词的识别。经过众多学者的努力,目前仍未完美的解决此问题。本文的分词算法,对原有分词算法做了部分改进,提高了分词的精度。在用户使用搜索引擎检索的过程中,查询词是用户与搜索引擎交互的唯一手段。查询词的准确与否直接关系到用户检索结果的精度。然而大多数用户不能准确描述自己所遇到的问题,因此会影响到返回的结果。用户推荐的出现很好的解决了这一问题,当用户输入查询限制时,先通过中文分词技术把字符串切割成词语,然后根据关联规则给用户推荐返回更多具有语义相关性的查询结果,供用户选择或者参考。个性化检索是指通过挖掘用户兴趣信息,建立合理的模型来表示、管理用户兴趣,并通过不断更新与维护,逐步优化模型,使其能准确反映用户的兴趣需求,为后续搜索工作提供个性化的分析依据。其包括用户所搜索的关键词,对搜索结果的点击,各个网站浏览行为,书签情况等。搜索引擎掌握了这些用户资料后进行分析,在用户搜索新的关键词时,能返回更有针对性的搜索结果,从而提高用户体验。论文创新点在于:1)设计了自己的中文分词核心词典,其包括常用汉语词语119803条,计算机术语1015条。新词词典是通过计算机程序的主动学习,不断加入未登录词,新词。新词词典用于存放切分词语时出现的未登录词和歧义词,在分词结束时对主要词典进行扩充。本文实现的中文分词提高了现有分词算法的精度。2)在基于通用搜索引擎实现技术的基础上,加入用户兴趣模型,实现了个性化检索技术。用户兴趣模型的建立,是通过web日志挖掘技术,挖掘用户的历史浏览记录和浏览行为,基于群体环境,找到相似用户,利用相似用户的检索结果或者相似用户的兴趣,来扩展所处理信息的广度和精度。
其他文献
随着互联网技术的愈加发达,人们之间的联系变得越来越密切,多媒体数据的相互交换也变得越来越便捷,可是随之而来的各种各样的盗版变得越来越普及。针对盗版问题,版权保护已越
现今互联网信息技术发展迅速,对于网络系统的攻击正向着规模化,间接化,复杂化和分布化的形式发展。网络攻击的变化性,快速性和破坏性决定了对于网络安全的分析和监控必须具有
随着汽车电子技术的飞速发展,汽车电子系统中功能的规模迅速增加,为汽车电子系统带来了更多且更复杂的数据。汽车电子中的数据管理成为了一个新的研究方向。本文首先分析了基于
随着经济的快速发展,市场的变化非常迅速以至于业务逻辑被迫需要经常改变,对于传统的软件开发来说,在软件的开发和维护时期,大量的时间和金钱被用在适应大量频繁的软件需求变
增强现实(Augmented Reality,简称AR)是将由计算机生成的虚拟场景与现实世界的场景进行叠加,并将叠加的场景显示给用户的过程。其在很多领域有广泛的应用,如军事、医疗、教育
在微蜂窝小区制中,地形环境差异较大,建筑物布局风格各异,导致传统的适用于宏蜂窝大区制的电波传播预测模型,难以在微蜂窝小区制中获得满足无线网络规划所需精度的预测结果。研究
在信息时代的今天Internet技术得到迅猛发展,互联网广泛应用于社会各个领域,让我们的生活发生着翻天覆地的变化。IP协议产生于70年代中期,它有效解决了网络连接和计算机通讯的问
近些年来,随着金融危机的爆发和一批知名企业的破产,使得世界范围内的风险管理理论和实践飞速发展,越来越多的企业开始注重风险管理,并不断的提高自身的风险管理水平。风险评
为适应气象业务发展需求,提高气象业务服务能力,结合现代天气预报业务发展形势,进一步探索高空天气系统自动分析算法和技术。位于对流层中层的500hPa高空天气系统对气象防灾
近年来,对等网络(P2P,Peer-to-Peer)作为一种新型的网络应用模型以其可扩展性、高度容错性等优点变得越来越流行。P2P网络为资源的快速共享提供了良好的平台。P2P网络中资源的