基于分布式的智能搜索引擎

被引量 : 0次 | 上传用户:zyl123456789zyl12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet网上的知识呈几何级数式的增长,搜索引擎作为一个查询用户所需信息的工具,其作用越来越受到人们的重视。目前,一个优秀的搜索引擎能够大大地提高一个网站的点击率,搜索引擎已经成为网站的门户。简单地讲:搜索引擎通过一个称之为“网络蜘蛛”的程序,将网页上的内容按一定的方式存放在自己的数据库里,并昼夜不停地维护、更新该数据库,当用户提交查询时,就从数据库中找出与该关键字相关联的信息,并按照一定的顺序返回给用户。 与其它的技术一样,搜索引擎的发展也离不开对其理论基础的研究。本文在对当前第二代搜索引擎系统进行理论分析的基础上,结合最有代表性的Google公司的搜索引擎系统进行了详细的系统分析,并讨论了其中的关键数据结构和算法,在这个基础上,我结合我当前正在进行开发的PIS个人智能搜索引擎项目,给出了我的基于分布式系统的架构以及相关的算法,并给出了具体的实现。同时也考虑到第二代搜索引擎系统的种种不足,给出了智能搜索引擎系统的理论概述,并结合目前我的项目,进行了个性化搜索的研究,给出了两种创新的个性化搜索方法。 本文具体进行了两个方面的论述: 1、分布式搜索引擎系统的设计与实现。尽管当前的搜索引擎系统已经广泛采用了分布式的系统架构,但是由于受到搜索引擎系统软件的设计和算法的制约,每个公司的实现方式不太一样,本文根据我当前正在开发的PIS智能搜索引擎系统,提出了一个比较适合于基于主题的分布式搜索引擎的架构,对其中的分布式页面抓取系统和分布式等级计算系统进行了详细的论述,并给出了具体模块的设计与实现方法,同时也提出了一种新的基于页面分类的页面等级计算算法——Topic PageRank算法。 2、智能化搜索引擎系统的设计。智能化的搜索引擎系统已经被提出了很多年,但是至今依然发展缓慢,本文中我结合智能搜索引擎的相关理论知识,提出了两种基于智能化搜索系统的个性化搜索方法——基于Blog的个性化方法和基于Ajax的个性化方法,通过与传统的个性化方法进行融合,能够提供出更精确的个性化搜索,针对不同的用户,我们的个性化搜索系统能够提供出更加个性化的返回结果集。
其他文献
<正>人教版六年级上册《少年闰土》《我的伯父鲁迅先生》《一面》《有的人》这组课文是为了让学生认识、了解鲁迅先生。教学时,我一改逐篇按字词句段篇教学的传统模式,借鉴"
利用电磁场强化聚合硫酸铁(PFS),改变PFS的水解形态,进而提高PFS的混凝性能。采用自制交流变频磁化装置对PFS溶液进行磁化处理,以交流变频电磁场的频率、电压、电流和磁化时
介绍了青岛远洋船员学院基本情况和国内船舶修造行业发展简况以及学院安全技术管理专业建立的背景,并从培养模式、课程设置、教材建设、实践教学等4个方面阐述了我院船舶安全
介绍了恶臭污染物的来源、危害及其治理方法,分析了生物法除臭的发展,着重对生物滴滤塔除臭系统进行了介绍。总结了生物滴滤塔除臭的影响因素,分析了生物填料的发展,并比较了
文章认为古典文学史上六言诗自行衰落的原因在于六言诗2+2+2的句式结构与古汉语中谓词大多为单音节这一语言事实的矛盾。
近年来,随着核电和化工产业在中国的大规模发展,突发性大气环境污染事件频发。为在该类事故发生后快速确定其危险程度和范围,研发了一套突发性大气环境污染事件应急预警系统
目的通过调查分析人流后预防感染的用药情况及方案,在用药成本和抗感染效果之间找到一个最佳的平衡点。方法 2012年8月~2014年4月对西城区各级医院、不同职称的200名医师进行
专业举办国际性展览会的巴黎Reed MIDEM集团近日在上海宣布,将于2008年11月在香港举办亚太区首个专为全球各创作及销售娱乐事业平台而设的B2B展览会及会议。这个由Reed MIDEM
<正>从事科幻创作已经十年有余,这期间一直感觉自己在坚守着最初的创作理念,走着一条直线,直到为写此文对自己的创作历程进行了一番回顾和总结,才发
随着我国《教育十年规划》开始实施,幼儿教育越来越被重视。家园合作是幼儿教育的重要组成部分,对幼儿教育产生了深远的影响。要深化这种影响力,努力扩宽家园合作途径,挖掘家