覆盖深度网的主题爬虫的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:aiyis88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现今通用搜索引擎仅能收录Web上通过链接可以爬行到的页面部分。然而对于大量的深度网资源,由于搜索引擎的爬虫无法通过链接爬行到这些页面,因而搜索引擎无法索引到这部分信息。据统计,目前深度网资源量是普通可索引到的资源的500倍左右。这些信息隐藏在Web页面的查询表单(深度网入口)后面,保存在大型的动态数据库中。如此庞大的信息资源如果没有合理的、高效的方法去获取,无疑将是巨大的损失。此外,深度网的研究涉及数据集成、中文语义识别等多个领域。因此,对于深度网爬行技术的研究具有极为重大的现实意义和理论价值。 目前的研究表明,深度网资源涉及的领域广泛且深度网入口形式缺乏统一规格,因而深度网资源不可能做到统一的集成,只能针对某一领域进行研究。基于此,本文设计并实现了一种结合深度网爬行技术在内的主题领域爬虫系统。系统旨在对某一领域进行包括深度网资源在内的全方位的爬行,以获得更全面、更优质的主题资源。系统采用基于本体域的入口定位及基于网页标签距离及语义判别的方法抽取入口模式。并且对主题特征词的学习采用一种在线学习的特征词训练方法。实验表明,爬虫可以较好地发现深度网资源,实现了对包含深度网信息在内的主题资源的大量获取,获得更多更丰富的信息。
其他文献
数据挖掘是近年来很多领域竞相研究的一个热点,而聚类分析是数据挖掘的关键技术之一。聚类分析就是使用聚类算法来发现有意义的聚类,它在没有任何先验知识的前提下,根据数据
无线传感器网络潜在的广泛应用前景,吸引了众多研究者进行研究,是目前一个非常活跃的研究领域。与传统网络不同,无线传感器网络资源非常有限,且以采集监测区域内的相关信息为主要
随着信息技术在学校的各个方面得到广泛的普及和应用,校园一卡通系统逐渐被各个学校纳入到学校数字化建设规划当中。校园一卡通系统的使用也给全校师生在工作、生活和学习中
本文以县级政府新闻宣传作为研究核心,首先分析新时代县级政府新闻宣传的发展需求,然后分析县级政府新闻宣传工作的问题,最后对县级政府新闻宣传与媒体协同运行的方法进行深
本文结合笔者多年集团化教育管理经验,对开展集团化办学,推进教育均衡发展的方式做逐一深入阐述,为广大教育工作者解疑答惑.
随着网络技术的普及和信息时代的到来,人们对信息交流的方式和质量均有了全新的需求,对于数字视频及图像传输业务的需求也随之大幅度增加。由于视频图像数据量大,采用原始数
坚持贴近实际、贴近生活、贴近群众是新闻工作的必然要求,是新闻工作增强针对性、实效性和吸引力、感染力的根本途径,是新世纪新阶段加强和改进新闻工作的重要突破口,是新闻
旅游解说系统是风景名胜区为游客进行服务的重要手段之一,而校园导览是服务高校游览者的有效途径,两者结合能够有效提高校园导览质量,为游览者带来更加优质的游览体验,值得研
移动支付是通过手机以电子数字形式在移动通信网络上提供交易的服务,它具有普及型、便捷性和个人性的优点。小额支付定位在100元以下的移动支付业务,由于涉及金额较小,更容易
详细分析了光纤通道(Fibre Channel,FC)帧和信令协议,研究了光纤通道适配器的体系结构和工作原理,提出了在现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)器件上