论文部分内容阅读
随着科技和网络的快速发展,人们已经进入了大数据时代,互联网上的信息资源已经多到人们无法想象的数量,不仅如此,互联网上每天还在产生着大量的信息资源。 网络上充斥着大量的资源,比如多媒体资源、文本资源等等。在这些资源中,文本资源是人们日常检索的主要资源。网络上文本资源的搜索与使用已经成为了人们生活中必不可少的一部分。当人们使用通用搜索引擎在检索信息资源时,会发现有很多不相关的页面产生,这就需要人们自己去筛选所需要的信息,浪费了人们的时间,同时也造成了人们的困扰。人们如何在如此大量的信息资源中快速、深入、准确的找到自己所需要的信息资源呢,这时就需要垂直搜索引擎来满足人们的需求了。垂直搜索引擎是针对某一个行业的专业搜索引擎,具有深入性、准确性和专业性等特点。 本论文重点研究了基于网页链接和基于网页内容的搜索策略,并深入分析和总结了两种搜索策略的优缺点。同时对基于网页链接的PageRank算法和基于网页内容的Shark-Search算法各自的缺点分别提出了相应的改进措施。但是,基于网页链接的搜索策略偏重于网页之间的链接结构,而忽视了页面内容的相关性;基于网页内容的搜索策略又过于偏重页面内容的相关性,而忽视了页面之间的链接关系,因此,为了既要发挥两种算法各自的优点,又要有效避免两种算法各自的缺点,本文提出了基于网页链接和基于网页内容相叠加的搜索策略。 本论文在研究和应用Lucene搜索引擎框架的基础上,对Lucene搜索引擎框架的设计原理、特色以及评分系统进行全面深入的分析。Nutch搜索引擎是一个以Lucene框架为核心建立的,完整实现的Web搜索引擎。由于Nutch搜索引擎是完全开放的,所以本文在Nutch搜索引擎的基础上进行了二次开发。本文以此为实验平台,对本文所提出的算法进行了实验验证。最后实验结果表明,搜索算法的性能良好,能够为用户提供深入、准确的检索结果。