基于启发式搜索策略的主题网络爬虫算法的设计与实现

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:walger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息化的进程逐渐加快,网络信息量的爆炸式增长,人们查找信息越来越难。 Web 搜索引擎的出现在一定程度上解决了这种矛盾。然而现行的大型通用搜索引擎无法根据用户所指定的主题进行针对性的搜索,主题搜索引擎应运而生。主题搜索引擎主要针对某一特定领域、某一特定主题或某一特定人群,提供内容集中而深入的信息与服务。主题网络爬虫作为主题搜索引擎的重要组成部分,它的好坏直接关系到所搜索到资源的质量,因此如何设计一个高质量的主题网络爬虫就成为了主题搜索引擎研究的一个重要课题。 通用搜索引擎设计的目的是在网络上搜索尽可能多的高质量网页,然而Web 信息容量的巨大使得网络爬虫不可能提取所有的Web页面,即使能够全部提取,也没有足够大的空间来存放。通用网络爬虫的信息采集方式是盲目的,通常使用宽度优先搜索,深度优先搜索和有限深度的宽度搜索三种策略。主题搜索引擎与通用搜索引擎不同,它的设计目标是尽可能多的搜索与主题相关的网页,尽可能少的搜索与主题无关的内容,提高采集主题资源的效率。主题网络爬虫设计的关键是如何将待爬行的URL按照某种策略进行排序,使得与主题相关的、质量高的URL优先爬行,爬行的过程逐渐向主题领域聚焦。 论文首先分析了主题搜索引擎与通用搜索引擎体系结构的异同,主题搜索引擎的信息采集策略,即主题网络爬虫的实现方式。目前比较有代表性的主题搜索策略如:基于启发式搜索算法和基于文本分类的搜索算法。论文通过分析各种搜索算法的优缺点,进行整合和改进,设计出一个基于启发式搜索策略的主题网络爬虫。在主题表示中利用向量空间模型提取主题关键词的算法,并且根据反比文档频率计算出关键词的权重。在预测链接价值的算法中,采用启发式搜索算法,即先通过在线获得的领域知识评价待访问链接的价值,借以推断信息资源的分布情况,然后按一定的原则选择价值最大的链接进行下一步的搜索,找到到达目标节点的最佳路径,删除不好的节点,保留那些好的节点。 论文设计了一个基于启发式搜索策略的主题网络爬虫,对其执行流程给出了精确的算法描述,提出了若干关键算法的解决方案。详细阐述了链接主题相关度预测算法和网页主题相关度分析算法的实现。最后通过实验,证明了论文设计的主题网络爬虫具有较高的搜索效率。
其他文献
防火墙作为一种网络或系统之间强制实行访问控制的机制,是确保网络安全的重要手段。防火墙可以是非常简单的过滤器,也可以是精心配置的网关,但它们的原理是一样的,都是监测并
本文研究了交流电动机的动态参数分析与故障诊断系统。本系统包括硬件系统和软件系统两部分,以目前使用最为广泛的一般用途鼠笼式中小型三相异步电动机为数据信号源,在系统中对
并行计算系统中资源的负载平衡是关系到并行效果的一个极为关键的因素,如何能充分利用并行计算系统中的资源更好的进行并行计算的问题,将参与机能统一的调度和管理起来,使任务的
投资监控系统是一个涉及经济利害的金融系统,所以系统对于用户的权限管理有着相当严格的要求,同时,由于系统功能的繁杂和用户群的庞大,对系统的权限管理以及日后的权限维护提
随着计算机的出现与普及,尤其是上世纪90年代互联网蓬勃兴起之后,人们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的社会,人们能从Internet获得数目惊人的信息。如何快捷准确地
安全防范问题仍然是现代人们普遍关心的问题。传统模拟家居监控产品已不能满足社会的需要,将逐渐被数字化的产品取代。随着嵌入式技术、多媒体技术、网络技术的快速发展,网络
在软件测试中,测试数据生成是其核心与关键。实际测试活动中,往往要求能达到一定程度的路径覆盖。因此,探讨一种辅助面向路径测试数据自动生成的有效方法,具有十分重要的意义。程
果蝇视觉系统对运动目标非常敏感,它为运动目标的位置、速度检测与跟踪的研究提供了丰富生物信息,也为探讨人工果蝇视觉神经网络奠定了生物理论基础。基于此,本文针对静态、
开关磁阻电机(Switched Reluctance Motor,SRM)是一种在20世纪80年代兴起,并得到迅速发展的新型调速电机。它不仅保持了交流感应电机的结构简单、坚固可靠的优点以及直流电机良好的可控性,还具有交流调速系统和直流调速系统所达不到的性价比高和适用能力强等优点,是现代传动系统中强有力的竞争者,具有广阔的发展前景。但是由于SRM运行时由径向吸力所导致的定子形变激发定子振动而产生噪声
随着大数据时代的到来,数据仓库已普遍运用在各个领域,企业数据仓库的分析型处理技术也日趋成熟。企业管理者可以通过决策分析系统从海量数据中提取重要数据以支持决策,决策