论文部分内容阅读
随着Internet网上的知识呈几何级数式的增长,搜索引擎作为一个查询用户所需信息的工具,其作用越来越受到人们的重视。目前,一个优秀的搜索引擎能够大大地提高一个网站的点击率,搜索引擎已经成为网站的门户。简单地讲:搜索引擎通过一个称之为“网络蜘蛛”的程序,将网页上的内容按一定的方式存放在自己的数据库里,并昼夜不停地维护、更新该数据库,当用户提交查询时,就从数据库中找出与该关键字相关联的信息,并按照一定的顺序返回给用户。 与其它的技术一样,搜索引擎的发展也离不开对其理论基础的研究。本文在对当前第二代搜索引擎系统进行理论分析的基础上,结合最有代表性的Google公司的搜索引擎系统进行了详细的系统分析,并讨论了其中的关键数据结构和算法,在这个基础上,我结合我当前正在进行开发的PIS个人智能搜索引擎项目,给出了我的基于分布式系统的架构以及相关的算法,并给出了具体的实现。同时也考虑到第二代搜索引擎系统的种种不足,给出了智能搜索引擎系统的理论概述,并结合目前我的项目,进行了个性化搜索的研究,给出了两种创新的个性化搜索方法。 本文具体进行了两个方面的论述: 1、分布式搜索引擎系统的设计与实现。尽管当前的搜索引擎系统已经广泛采用了分布式的系统架构,但是由于受到搜索引擎系统软件的设计和算法的制约,每个公司的实现方式不太一样,本文根据我当前正在开发的PIS智能搜索引擎系统,提出了一个比较适合于基于主题的分布式搜索引擎的架构,对其中的分布式页面抓取系统和分布式等级计算系统进行了详细的论述,并给出了具体模块的设计与实现方法,同时也提出了一种新的基于页面分类的页面等级计算算法——Topic PageRank算法。 2、智能化搜索引擎系统的设计。智能化的搜索引擎系统已经被提出了很多年,但是至今依然发展缓慢,本文中我结合智能搜索引擎的相关理论知识,提出了两种基于智能化搜索系统的个性化搜索方法——基于Blog的个性化方法和基于Ajax的个性化方法,通过与传统的个性化方法进行融合,能够提供出更精确的个性化搜索,针对不同的用户,我们的个性化搜索系统能够提供出更加个性化的返回结果集。