论文部分内容阅读
快速发展的现代互联网在带给人们大量信息的同时,也不可避免的产生了如何让用户快速有效获取信息的问题。作为一种常见的Web信息资源检索工具,搜索引擎日益受到人们的关注和广泛的使用,它面向任何Web用户,无需用户具有较高的专业检索知识,使用方式也较为简单,搜索引擎已经成为人们获取Web资源的一种主要方式。
然而,现代搜索引擎也存在着很多不足,其中最为主要的一个问题就是由于采用了全文检索的匹配方法,所以用户往往会得到相当多的查询结果网页,而用户一般只会访问其中感兴趣的网页,但是相当多的搜索引擎缺乏对用户个性化信息的利用,从而不能实现有针对性的个性化信息服务。事实的情况就表现为即使是具有不同个性化信息需求的用户,在输入相同检索词语的时候也会得到相同的结果,甚至是相同的网页排列次序。这些问题显然需要得到解决。
借鉴在电子商务网站中广泛使用的Web个性化信息推荐技术,本文提出了一个较为可行的解决方案,即在搜索引擎中使用Web个性化信息推荐技术以实现个性化搜索引擎。然而,传统的Web个性化信息推荐技术具有很多并不适合搜索引擎的特点,只有结合搜索引擎工作的原理和特点。在现有的Web个性化信息推荐技术基础上加以改进,才能设计出具有个性化信息推荐能力的智能搜索引擎。
本文的选题是《Web个性化信息推荐技术在搜索引擎中的应用》,通过对基于个性化信息推荐技术的搜索引擎框架和基本技术的探讨,主要介绍了利用搜索引擎服务器日志中所具有
的关键词序列得到用户模式,并按照事务模式聚类的方法实现用户个性化特征的表达,最后在搜索引擎的网页索引中,利用得到的用户个性化特征改进传统的PageRank算法。通过上述工作,本文构建了一个完整的基于Web个性化信息推荐技术的搜索引擎框架结构。
这种框架结构的设计思想主要考虑了两点内容:一个是尽量减少用户使用的复杂度,能够让用户在完全无需关注个性化过程的情况下,来表达自己的个性化信息需求和得到所需的个性化信息;另一个是尽量在现有搜索引擎技术基础之上进行优化和完善,无需对现有技术和平台环境做过大的调整。
本文的基本结构如下所示:
第一,本文对目前个性化搜索引擎的研究现状和相关概念进行了分析,在给出各种常见搜索引擎个性化形式的同时,也分析了这些技术所存在的主要问题。通过各种方法的比较,本文认为利用用户个性化信息以完善现阶段的个性化网页权重方法是个不错的搜索引擎个性化方案。
第二,本文比较分析了各种常见的用户模式识别方法,指出适用于当前Web环境的用户模式识别方法所应具有的特点,并提出一种利用搜索引擎服务器日志信息得到关键词访问序列的思路,据此设计了基于关键词序列的用户模式识别方法。
第三,本文对用户事务模式的相似度匹配方法做了深入的分析和研究,探索了利用基于关键词外在特征的传统事务模式相似度计算方式、基于用户兴趣度的事务模式相似度计算方式、基于关键词语义信息的事务模式相似度计算公式和基于查询文档语义信息的事务模式相似度计算方式。
第四,本文提出了基于修改网页权重值的个性化PageRank算法和基于添加修正参数的个性化PageRanK方法。针对传统的个性化PageRank算法,利用基于关键词序列的用户事务聚类模式和主题化事务聚类模式,改进了个性化PageRank算法中用户个性化信息特征的表达方法,并给出相应的计算方法。
最后,本文给出了一个较为完整的个性化搜索引擎系统原型。