Deep Web网络蜘蛛研究与初步设计

来源 :长安大学 | 被引量 : 0次 | 上传用户：benlums

【摘要】

：

目前随着Internet信息的爆炸增长,Web服务器上数据信息已经被大量可搜索的在线数据库极大的“深化”,传统搜索引擎已经不能有效检索到隐藏在Web服务器后台在线数据库中的Deep

【作者】

：

杨小伟

【机构】

：

长安大学

【出处】

：

长安大学

【发表日期】

：

2008年期

【关键词】

：

搜索引擎 Deep Web网络蜘蛛 URL 查询接口表单谓词 Lmax算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前随着Internet信息的爆炸增长,Web服务器上数据信息已经被大量可搜索的在线数据库极大的“深化”,传统搜索引擎已经不能有效检索到隐藏在Web服务器后台在线数据库中的Deep Web信息。如何快速有效获取Deep Web信息正成为搜索引擎研究的热点和和发展趋势。本文重点对网络蜘蛛(Spider or crawler)的研究和改进,以及Deep Web信息提取涉及到的相关技术和算法问题,设计和实现了一个Deep Web网络蜘蛛。论文的主要工作包括以下几个方面:1.分析了传统搜索引擎的设计思想、工作原理和体系结构,从而发现传统搜索引擎在技术上存在的缺陷、不足之处和可改进的地方。2.分析了Deep Web信息集成系统的工作原理和体系结构,并简要说明Deep Web信息集成系统工作流程,系统组成模块中各个模块的功能。3.在以上相关理论和研究结果的基础上,提出了本文中设计Deep Web网络蜘蛛的思想、体系结构和工作流程。4.针对网页采集问题,提出有选择的采集网页类型策略和控制重复网页采集策略,有效地过滤了噪音信息和重复网页抓取问题。5.针对从静态网页中提取Deep Web数据库查询接口问题,提出通过分析网页构建网页标记树模型,通过遍历网页标记树来寻找查询接口。提出用对象模型表示(DWI)查询接口和存储表单数据,为后续查询接口合并与分类提供有效的数据表示模型和良好的存储结构,并给出具体实现算法。6.针对Deep Web查询接口合并与分类问题,提出通过聚类方法实现对其合并与分类,并设计和实现了Lmax算法,使得查询接口分类与合并的准确性有很大的提高。7.总结了Deep Web网络蜘蛛研究与开发经验,并指出了不足之处以及下一步研究的重点。

其他文献

COM组件栈缓冲区溢出漏洞检测技术研究

为了解决软件复用,缩短软件开发时间,降低维护成本和实现程序动态升级,软件设计领域产生了组件化程序设计结构,并且日益成为发展趋势。微软的COM组件对象模型是当今比较成熟

学位

缓冲区溢出静态分析二进制代码COM组件危险函数

基于JMX的监控系统研究与实现

网络管理和分布式技术的发展，以及J2EE技术的广泛应用推动了JMX技术的形成。JMX的全称是Java Management Extensions，由Java CommunityProcess(JCP)制定，为基于Java平台的软件和

学位

JMX监控管理分布式

数据挖掘分类技术在高校教学中的应用研究

由于数据库中存在着大量数据,因此从数据库中发现有用的信息显得十分重要。数据挖掘技术就是为解决这个问题而产生的。对数据挖掘技术的研究,国内外己经取得了许多令人瞩目的

学位

数据挖掘分类决策树分类器分类规则

基于ENO的图像插值方法的研究与应用

图像插值可以改变图像分辨率，实现图像的缩放显示，是高清数字电视平板显示中的关键技术，具有非常重要的理论和应用价值。ENO(Essentially Non-Oscillatory，基本无振荡)插值方法采

学位

基本无振荡图像插值模板选择边缘保持自适应算法

Java虚拟机异常机制及其实时性的研究与实现

Java语言的面向对象、跨平台、语言级并发支持、安全等特性不仅使它在互联网领域得到广泛应用,也引起了嵌入式领域研究人员的高度重视,Sun公司希望能将Java语言改造成实时系

学位

JavaRTSJ异常处理异常表ATCAIE异步异常处理

三维曲面恢复

逆向工程技术是随着计算机技术的发展和成熟以及数据测量技术的进步而迅速发展起来的一门新兴学科与技术。它的出现,改变了原来CAD系统中从图纸到实物的设计模式,为产品的迅

学位

网格平滑网格恢复两步特征保持

求解模糊规划问题的微粒群算法研究

模糊规划是解决带有模糊参数规划问题的一种统一的优化理论,它可以很好的解决数学模型的约束检验和模糊目标不易转化为清晰等价类的问题。到目前为止,用于求解模糊规划问题的

学位

模糊规划微粒群算法数值求解局部搜索

对串匹配技术中的Wu-Manber算法的研究

字符串匹配是计算机研究领域中的一个古老、经典而且被广泛研究的课题,是信息检索领域和计算机生物学领域等的关键技术之一。在当今的互联网时代,对匹配算法的需求日新月异,

学位

字符串匹配精确字符串匹配Wu-Manber匹配算法信息检索

有线-无线网络中基于丢包区分的TCP改进研究

TCP是基于有线网络而设计的,并认为网络发生的丢包是拥塞丢包。但是,无线网络常常伴随着无线发送错误丢包。在这种情况下启动拥塞控制机制就必然减小发送端的拥塞窗口。丢包

学位

有线/无线网络丢包区分AIMD自适应调节区分队列

基于WEB的企业电网实时监控系统的开发技术研究

随着社会的进步、国民经济的发展,电能在日常生活中扮演着越来越重要的角色,企业电网实时监控系统旨在将电能这一抽象的商品通过计算机实现其可视化和可管理化。然而目前WEB环境下的电网实时监控系统仍然存在某些不足,不能很好地适应实时系统的实时性要求,主要表现在:(1)传统刷新技术通信效率低下,当通信数据量大时数据刷新慢且资源消耗大;(2)所依赖的关系型数据库系统只强调事务一致性、可恢复性,不显式地考虑时间

学位

实时监控内存数据库多线程技术远程过程调用异步式数据帧

Deep Web网络蜘蛛研究与初步设计

与本文相关的学术论文