Web个性化信息推荐技术在搜索引擎中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:jonasen128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速发展的现代互联网在带给人们大量信息的同时,也不可避免的产生了如何让用户快速有效获取信息的问题。作为一种常见的Web信息资源检索工具,搜索引擎日益受到人们的关注和广泛的使用,它面向任何Web用户,无需用户具有较高的专业检索知识,使用方式也较为简单,搜索引擎已经成为人们获取Web资源的一种主要方式。 然而,现代搜索引擎也存在着很多不足,其中最为主要的一个问题就是由于采用了全文检索的匹配方法,所以用户往往会得到相当多的查询结果网页,而用户一般只会访问其中感兴趣的网页,但是相当多的搜索引擎缺乏对用户个性化信息的利用,从而不能实现有针对性的个性化信息服务。事实的情况就表现为即使是具有不同个性化信息需求的用户,在输入相同检索词语的时候也会得到相同的结果,甚至是相同的网页排列次序。这些问题显然需要得到解决。 借鉴在电子商务网站中广泛使用的Web个性化信息推荐技术,本文提出了一个较为可行的解决方案,即在搜索引擎中使用Web个性化信息推荐技术以实现个性化搜索引擎。然而,传统的Web个性化信息推荐技术具有很多并不适合搜索引擎的特点,只有结合搜索引擎工作的原理和特点。在现有的Web个性化信息推荐技术基础上加以改进,才能设计出具有个性化信息推荐能力的智能搜索引擎。 本文的选题是《Web个性化信息推荐技术在搜索引擎中的应用》,通过对基于个性化信息推荐技术的搜索引擎框架和基本技术的探讨,主要介绍了利用搜索引擎服务器日志中所具有 的关键词序列得到用户模式,并按照事务模式聚类的方法实现用户个性化特征的表达,最后在搜索引擎的网页索引中,利用得到的用户个性化特征改进传统的PageRank算法。通过上述工作,本文构建了一个完整的基于Web个性化信息推荐技术的搜索引擎框架结构。 这种框架结构的设计思想主要考虑了两点内容:一个是尽量减少用户使用的复杂度,能够让用户在完全无需关注个性化过程的情况下,来表达自己的个性化信息需求和得到所需的个性化信息;另一个是尽量在现有搜索引擎技术基础之上进行优化和完善,无需对现有技术和平台环境做过大的调整。 本文的基本结构如下所示: 第一,本文对目前个性化搜索引擎的研究现状和相关概念进行了分析,在给出各种常见搜索引擎个性化形式的同时,也分析了这些技术所存在的主要问题。通过各种方法的比较,本文认为利用用户个性化信息以完善现阶段的个性化网页权重方法是个不错的搜索引擎个性化方案。 第二,本文比较分析了各种常见的用户模式识别方法,指出适用于当前Web环境的用户模式识别方法所应具有的特点,并提出一种利用搜索引擎服务器日志信息得到关键词访问序列的思路,据此设计了基于关键词序列的用户模式识别方法。 第三,本文对用户事务模式的相似度匹配方法做了深入的分析和研究,探索了利用基于关键词外在特征的传统事务模式相似度计算方式、基于用户兴趣度的事务模式相似度计算方式、基于关键词语义信息的事务模式相似度计算公式和基于查询文档语义信息的事务模式相似度计算方式。 第四,本文提出了基于修改网页权重值的个性化PageRank算法和基于添加修正参数的个性化PageRanK方法。针对传统的个性化PageRank算法,利用基于关键词序列的用户事务聚类模式和主题化事务聚类模式,改进了个性化PageRank算法中用户个性化信息特征的表达方法,并给出相应的计算方法。 最后,本文给出了一个较为完整的个性化搜索引擎系统原型。
其他文献
期刊
信息化是推动国民经济发展一股重要力量,对企业尤其重要.企业是一个复杂巨系统,企业信息化以企业为对象,具有内在的系统复杂性,已属于开放的复杂巨系统范畴.综合集成研讨厅是
网络学术信息资源已经成为教学、科研的重要参考资料库。本文共分六章,通过对比、分析、研究我国主要图书馆网络学术信息资源和英美两种图书馆网络学术信息资源的组织模式,归
小学阶段开设英语课程其宗旨是:培养学生学习英语的兴趣,在情境中学习,培养学生语言的综合运用能力,不学音标和语法。小学英语要不要教学音标一直成为一个争论不休的话题。在多年
在分析气候变化挑战、气候政策分析特殊性及其内容的基础上,归纳气候政策分析的主要方法:量化历史责任的分析方法、确定政治影响的分析方法、经济成本和效益的分析方法、未来
依据信息生命周期理论,结合2006-2008年Weblog在中国的实际发展状况,分析构建Weblog的生命周期模式,以期有效地提高Weblog资源利用率,促进信息共享。 According to the theo
科技在文化与文化之间的传播有着不同的途径----通商、移民、学术交流、器物流传等等,但是语言不同的两种文化间最大规模、最系统的交流却必然要通过文本的翻译才能完成。在1
从标准组成、标准化对象、叙词表的揭示对象和内容要点等几个方面对中国、美国和英国的叙词表标准进行比较研究,对它们在标准内容上的共性和差异性进行详细的对比分析,并结合
根据Rasmussen提出的基于知识、规则与技能的三种认知行为模式,研究网络信息安全人因失误自我纠正策略,包括失误见识策略、计划行为策略、信息系统反馈策略、自我反馈策略及
随着因特网资源的迅猛发展,搜索引擎作为网络信息管理与检索的重要工具日益受到人们的重视。搜索引擎的性能优劣直接关系到网络信息资源的检索效果和对网络信息的管理控制水平
学位