垂直搜索引擎系统的研究与设计

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:wzq8013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网走进千家万户,网络上的信息量也呈现出了前所未有的快速增长,通用搜索引擎在采集信息资源、存储索引海量网页等方面的挑战越来越大。同时,特定行业内的科研和从业人员,希望从互联网上得到更专业、更深入和更有价值的信息,不同的年龄段的人群对网上的信息也有着特定需求,有需求的地方就有市场,服务这些专门搜索需求的搜索引擎,即垂直搜索引擎近年来快速发展,成为了搜索引擎领域研究的热门方向。它提供某一个领域的专门的信息检索服务,更好地满足了专业用户的专业化和精细化信息查询需求。本文首先概述了垂直搜索引擎的总体设计,描述了垂直搜索引擎要实现的目标并介绍了垂直搜索引擎的工作原理,垂直搜索引擎的总体模块有网页信息的收集、网页信息的索引,网页信息排序和检索,其中垂直搜索引擎相比通用搜索引擎,重点在于网页信息收集时只收集主题相关的网页,这就要求垂直搜索引擎的爬行器按照一定的收集策略收集网页。传统的收集策略有两种,即基于网页内容分析的搜索策略和基于链接结构分析的搜索策略,它们都是单一的搜索策略,存在着一定的不足。本文提出了一个综合网页内容分析和链接结构分析的搜索策略。其中网页内容分析搜索策略有Fish-Search算法和Shark-Search算法,链接结构分析算法有PageRank算法和HITS算法,本文对这四大类算法分别进行了一一介绍,在此基础上,先提出改进PageRank算法,进而提出了综合的改进算法,期望能指导爬虫收集更多更好的主题相关的网页。为了测试改进后的算法是否有效,本文设计实现了一个网络爬虫软件:VSE—Spider,此系统多线程分布式地抓取互联网上和设定的主题相关的网页,系统的爬虫程序分别采用传统的网页搜索算法和本文提出的改进后的综合网页搜索算法,对VSE-Spider各组实验结果进行对比分析。结果表明,本文提出的改进后的综合搜索策略在收集主题相关网页时有着更好的表现。
其他文献
随着互联网技术的广泛应用,电子商务得到了迅速的发展。电子商务的发展先后经历了EDI技术和RN模式两个阶段。第二阶段的RN标准比起EDI是很大一个进步。它依托一些大客户品牌
随着工业技术的发展,旋转机械运行的监测保护已经成为保障安全生产和企业经济效益的关键措施。目前市场上的旋转机械监测保护系统,国外产品配备的软件多为英文界面,操作方法
随着计算机技术和网络应用的普及,人们对计算机系统的依赖日益增强。一些关键性的业务处理系统要求计算机服务系统具有很高的可用性,以保证业务处理的连续。因此必须提高业务系
在过去的十几年中,通讯网络经历了巨大的变革。包交换技术最终使传统的语音网络和数字网络融合到一起成为统一的多媒体网络,其范围进一步扩展,将有线,无线,蜂窝网络融合一体。有线
随着计算机应用领域的不断拓展,教育领域首当其冲,尤其对于聋儿教育领域,借助先进的计算机多媒体工具进行教学,实现传统媒体与电教媒体的有机结合,可以更好地利用聋幼儿的残余听力
组态软件是针对数据采集与过程控制的专用软件,它是使用在自动控制系统监控层一级的软件平台和开发环境,它能以灵活多样的组态方式(而不是编程方式)提供良好的用户开发界面和
关联规则是数据挖掘的一个重要研究方向,旨在挖掘项集之间的内在联系。Fp树算法是关联规则的一种基于深度的典型算法,具有良好的性能和可扩展性。Fp树通过自顶向下构造频繁树和
P2P是近些年发展起来的网络技术,目前在很多领域得到了应用,逐渐成为业界研究与关注的一个焦点。但是P2P网络发展和壮大的过程中,产生了一系列急需研究和解决的问题,其中最重要和
项目管理水平的高低直接影响到项目目标的实现。项目进度计划的安排在项目管理中起着非常重要的作用。网络计划技术作为现代项目管理的主要技术之一,由于它在科学管理方面的效
在几乎所有现代通讯和计算机网络领域中,安全问题都起着非常重要的作用。随着网络应用的迅速发展,对安全的要求也逐渐加强。目前影响最大的三类公钥密码是RSA公钥密码、ElGam