基于文档分类及超链接优选策略主题蜘蛛的研究与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:ll6960071
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅速发展,网络信息增长的速度与人们获取所需信息能力之间的矛盾越来越突出。搜索引擎这一新兴技术也越来越体现出其自身的重要价值。作为搜索引擎的数据后勤保障,网络蜘蛛的发展也越来越迅速。论文从研究互联网络上信息的分布特征入手,对“主题网络蜘蛛”这一新型的网络蜘蛛原理、策略、结构、工作模式、调度机制以及实现上进行了深入的分析研究。论文设计了一个主题网络蜘蛛系统——Focus CrawlingSpider,在Windows环境下采用C++实现了该系统。在Focus Crawling Spider系统的页面主题相关性判定策略中引入了文档自动分类的思想,提出了基于简单向量距离法、KNN算法以及朴素贝叶斯算法综合对页面进行主题相关性判定的页面相关性的方法;同时在URL剪枝部分,论文提出了将“侵入式鱼群算法(Invasive Fish Search,IFS)”应用于Focus Crawling Spider系统,增强了该系统穿越“隧道”的能力,增加了该系统的爬行覆盖率。论文对Focus Crawling Spider系统的各个功能模块的设计与实现都进行了详细的论述,包括大量的效率瓶颈的分析以及解决方案。在系统结构、页面采集、URL(Uniform Resource Locator,URL)管理、URL评价、DNS(DomainName Server,DNS)缓存系统、DOM(Document Object Model,DOM)结构生成、HTML(Hypertext Markup Language,HTML)解析等方面都提出并实现了一些创新点。论文从运行效率和爬行策略的改进效果等方面对Focus Crawling Spider系统进行了运行测试。通过对测试数据的分析比较,得到了较好的结果。
其他文献
XML的全称是Extensible Markup Language(可扩展标识语言)。XML是标准的通用标记语言,它的半结构化特性、良好的可扩展性、自描述等特性使它正迅速成为一种与技术无关的数据交
近年来自然景观模拟(Natural Phenomenon Simulation,NPS)在计算机图形学领域变得越来越普遍和重要。随着计算机硬件和图形算法的高速发展,NPS越来越广泛地应用于电脑游戏,国防
错误定位是整个软件调试过程中最耗时最困难的部分,错误定位过程中的任何改进都可以大大降低软件成本。传统的错误定位方法一般是利用开发工具手动地设置断点,不但耗费精力,
基于IP的语音技术(Voice over IP,VoIP)是随着20世纪90年代以来开始的Internet商业化革命和网络融合技术发展起来的一门新兴的通信技术。由于其和传统的PSTN电信网相比,具有
L系统是由瑞典理论生物学家、植物学家Aristid Lindenmayer提出的一种形式语言文法,具有并行重写的特点。1986年,Salomaa等人通过对L系统的研究,提出了基于L系统的公钥密码体制
本文通过开发网络管理系统网络拓扑发现服务模块过程中获得的理论和实践经验,从物理和逻辑两个层次对拓扑发现算法进行了积极的探索。 网络物理拓扑结构发现包括网络层发现
车牌识别是智能交通系统(ITS)的重要组成部分,本文以汽车牌照自动识别技术作为研究背景,以静态车辆图像为主要对象,深入研究了计算机图像处理、人工智能、模式识别等背景知识,探
随着计算机网络和电子商务的普及,网络安全问题越来越受到重视,而电子商务协议就是解决电子商务中网络安全问题的有效手段之一。虽然电子商务协议使用密码系统来确保其安全性,但
本文提出的任务调度算法是针对实时数据平台中传统任务调度存在的负载不均衡及任务实时性差等问题给出的解决方案。在查阅了大量的国内外文献的基础上,对实时调度及负载均衡
人的一生中大约有1/3的时间是在睡眠中度过,睡眠质量的好坏与人类的身心健康和工作生活有着极为密切的关系。睡眠过程会经历几个相对稳定的睡眠状态,医学上称之为睡眠分期,而