WEB爬虫相关论文
个人敏感信息泄露是目前多发的网络安全事件之一,可能危及人身和财产安全,损害公民名誉和身体健康等.本文通过爬虫技术获取网页内容......
Web爬虫是搜索引擎和Web信息检索系统的重要基础.本文介绍了一个大型分布式爬虫系统Igloo 1.2版所采用的性能优化措施.它采用分布......
本体提供简单、统一和形式化的语义描述,并且由于学术研究和工业生产的需要正在得到越来越多的重视。在我们的研究中,本体是描述一......
Internet的飞速发展,为我们提供了海量的信息资源。但目前传统的搜索引擎能够检索的仅仅是World Wide Web中的一小部分,大量的Deep......
学位
随着互联网的爆炸性增长,Web已经发展成为站点遍布全球的巨大信息服务网络,根据CNNIC统计,截至2008年底,仅中国网页总数就超过160......
随着互联网的飞速发展,Web中的信息规模日益扩大,为人们提供了各种各样可利用的信息。其中大量的信息是存储在Web数据库当中,只能......
学位
Deep Web中包含了大量有价值的信息,并且信息量在快速增长。随着Web 2.0的发展,越来越多的Deep Web网站开始运用Ajax技术来改善用......
随着Web应用的迅速发展,Web网站的安全也成为人们共同关注的焦点问题。提升网站安全风险等级的首要任务就是找到网站上存在的漏洞,......
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以......
海量的URL快速文件系统建立的目标就是提供高速的处理机制,此时以高性能的web爬虫为基础的系统可以帮助实现这个目标。为了实现这......
随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web......
传统Web爬虫无法解决爬行Ajax应用所面临的JavaScript执行、状态识别与切换、重复状态检测等问题。为此,首先定义Ajax应用的状态转......
Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种......
针对目前Web安全检测系统的缺陷,结合云环境高效,高共享的特性,提出一个基于云环境的Web漏洞检测系统的设计方案。在方案中对有效URL......
本文介绍了一个大型分布式Web Crawler系统--Igloo1.2版,它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高......
DeepWeb网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取DeepWeb数据的关键步骤,针对采用Ajax技术的DeepWeb查......
如今Web上越来越多的信息可以通过查询接口获得,但为了获取某Hidden Web站点的页面,用户不得不键入一系列的关键词。由于没有直接指......
针对通用搜索引擎对校园网检索的索引率不高和更新周期长等不足及校园网信息检索的迫切需要,设计并实现了一个专门面向校园网,由下......
摘要:文章从介绍一般爬虫的逻辑结构开始,分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫,通用爬虫、深度爬虫以及增......
提出基于观点挖掘的产品可用性建模与评价方法。以Web上的产品评论为数据,利用观点挖掘的方法从非结构化评论中抽取结构化数据,选......
Web语料是外语语料库的重要组成部分,语料抓取系统要适用于不同语种、不同结构的网站。文中介绍了针对内容管理型新闻网站设计的语......
为实现Web学习信息资源有效整合,提高查询效率,通过采用分布式Web爬虫技术实现后台自动采集任务,利用ECharts和JavaScript技术实现......
万维网中数据的高速增长使得Web已经成为了全球最大的信息库。面对这个数量庞大、结构各异、半结构化的数据库,用户很难在短时间内......
随着我国信息化技术的发展,以求职招聘网站为代表的就业信息服务成为了个人求职、企业招聘的主要渠道。但是随着互联网的高速发展,......
社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技......
从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功......