WEB爬虫相关硕士博士期刊学术论文

WEB爬虫相关论文

基于ElasticSearch的个人敏感信息检测系统

个人敏感信息泄露是目前多发的网络安全事件之一，可能危及人身和财产安全，损害公民名誉和身体健康等.本文通过爬虫技术获取网页内容......

期刊

Web爬虫 ElasticSearch 个人敏感信息泄露

一个Web本体的采集系统

本体提供简单、统一和形式化的语义描述,并且由于学术研究和工业生产的需要正在得到越来越多的重视。在我们的研究中,本体是描述一......

学位

语义Web 本体重用 Web爬虫聚焦搜索多线程

基于主题的Deep Web搜索引擎研究与探索

Internet的飞速发展,为我们提供了海量的信息资源。但目前传统的搜索引擎能够检索的仅仅是World Wide Web中的一小部分,大量的Deep......

学位

Deep Web爬虫表单抽取数据源选择结果抽取

基于B*树和B+树融合索引的海量URL管理技术

海量URL的高效存储和快速访问是高性能Web爬虫的关键技术。现有的海量URL数据管理技术大部分是基于B树或B+树索引结构的。B+树索引......

学位

WEB爬虫 URL管理 NP_B+Tree 节点结构缓存优化管理

分布式Web Crawler系统研究与实现

随着互联网的爆炸性增长,Web已经发展成为站点遍布全球的巨大信息服务网络,根据CNNIC统计,截至2008年底,仅中国网页总数就超过160......

学位

搜索引擎 Web爬虫抓取策略分布式系统网页库

Deep Web数据获取方法研究

随着互联网的飞速发展,Web中的信息规模日益扩大,为人们提供了各种各样可利用的信息。其中大量的信息是存储在Web数据库当中,只能......

学位

Deep Web爬虫属性相关度属性组合查询选择增量爬虫

支持Ajax的Deep Web爬虫技术研究

Deep Web中包含了大量有价值的信息,并且信息量在快速增长。随着Web 2.0的发展,越来越多的Deep Web网站开始运用Ajax技术来改善用......

学位

深层网爬虫 Ajax 查询接口

基于Chrome Headless的网络爬虫在Web漏洞扫描中的应用研究

随着Web应用的迅速发展,Web网站的安全也成为人们共同关注的焦点问题。提升网站安全风险等级的首要任务就是找到网站上存在的漏洞,......

学位

Chrome Headless Web爬虫页面解析爬取策略 AJAX

分布式Web Crawler的研究:结构、算法和策略

本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以......

期刊

Web爬虫爬行策略分布式系统

基于海量URL数据存取的快速文件系统设计分析

海量的URL快速文件系统建立的目标就是提供高速的处理机制,此时以高性能的web爬虫为基础的系统可以帮助实现这个目标。为了实现这......

期刊

海量URL WEB爬虫爬行策略系统构建系统模块

一种Deep Web爬虫的设计与实现

随着World Wide Web的快速发展，Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取，它们是由Deep Web......

期刊

DEEP WEB WEB爬虫表单 Deep Web Web crawler form

一种基于状态转换图的Ajax爬行算法

传统Web爬虫无法解决爬行Ajax应用所面临的JavaScript执行、状态识别与切换、重复状态检测等问题。为此,首先定义Ajax应用的状态转......

期刊

Ajax爬虫状态转换图 WEB爬虫 DEEP WEB Ajax crawler state transition graph Web crawler D

基于最优查询的多领域deep Web爬虫

Deep Web信息通过在网页搜索接口提交查询词获得。通用搜索引擎使用超链接爬取网页,无法索引deep Web数据。为解决此问题,介绍一种......

期刊

DEEP WEB DEEP WEB爬虫最优查询页面聚类 deep Web deep Web crawler most efficient queries

云环境下Web漏洞检测平台关键技术的研究

针对目前Web安全检测系统的缺陷，结合云环境高效，高共享的特性，提出一个基于云环境的Web漏洞检测系统的设计方案。在方案中对有效URL......

期刊

云技术 WEB爬虫任务调度资源聚类 web漏洞 cloud technology web crawler task allocation and sched

面向DeepWeb的Ajax查询接口技术研究

DeepWeb网站采用Ajax技术后使得获取其数据信息更加困难。查询接口处理是获取DeepWeb数据的关键步骤，针对采用Ajax技术的DeepWeb查......

期刊

爬虫 AJAX 查询接口 DEEP WEB爬虫 crawler Ajax query interface Deep Web crawler

Hidden Web信息获取

如今Web上越来越多的信息可以通过查询接口获得，但为了获取某Hidden Web站点的页面，用户不得不键入一系列的关键词。由于没有直接指......

期刊

Hidden Web Hidden WEB爬虫静态链接搜索引擎采样策略

面向校园网的搜索引擎CAUCIIC

针对通用搜索引擎对校园网检索的索引率不高和更新周期长等不足及校园网信息检索的迫切需要,设计并实现了一个专门面向校园网,由下......

期刊

WEB爬虫搜索引擎校园网

爬虫技术综述

摘要：文章从介绍一般爬虫的逻辑结构开始，分类综述了发展历史中出现不同协作方式的顺序、并行和分布式爬虫，通用爬虫、深度爬虫以及增......

期刊

广域网分布式 WEB爬虫主题爬虫知识主体 Wan distributed Web crawlertopical crawlerknowledge subje

基于观点挖掘的产品可用性建模与评价

提出基于观点挖掘的产品可用性建模与评价方法。以Web上的产品评论为数据,利用观点挖掘的方法从非结构化评论中抽取结构化数据,选......

期刊

观点挖掘因子分析产品可用性词语相似度 WEB爬虫中文分词 opinion mining factor analysis product usabilit

多语种Web新闻语料抓取的通用模型研究

Web语料是外语语料库的重要组成部分,语料抓取系统要适用于不同语种、不同结构的网站。文中介绍了针对内容管理型新闻网站设计的语......

期刊

正则表达式多语种新闻语料 WEB爬虫 regular expressionmulti-languagenews corpusWeb crawler

基于Web爬虫的学习资源采集系统设计与实现

为实现Web学习信息资源有效整合,提高查询效率,通过采用分布式Web爬虫技术实现后台自动采集任务,利用ECharts和JavaScript技术实现......

期刊

WEB爬虫学习资源采集系统 ECharts Web crawleracquisition system of learning resourcesEChart

面向特定网页的Web爬虫的设计与实现

万维网中数据的高速增长使得Web已经成为了全球最大的信息库。面对这个数量庞大、结构各异、半结构化的数据库，用户很难在短时间内......

学位

Web爬虫爬行策略链接分析信息抽取

基于移动就业信息服务的个性化推荐系统设计与实现

随着我国信息化技术的发展,以求职招聘网站为代表的就业信息服务成为了个人求职、企业招聘的主要渠道。但是随着互联网的高速发展,......

学位

就业信息服务个性化推荐 Web爬虫信息抽取

基于众包的社交网络数据采集模型设计与实现

社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技......

期刊

社交网络众包模式分布式计算信息采集 Web爬虫 Hadoop分布式文件系统

基于WEB挖掘的网络爬虫设计与实现

从介绍Web挖掘与数据挖掘的差异入手,分析Web挖掘中Web爬虫的必要性和现代Web挖掘技术的发展方向,在深入了解Web爬虫的原理及其功......

期刊

数据挖掘 Web爬虫挖掘技术

看过本文同时还关注