Deep Web网络蜘蛛研究与初步设计

来源 :长安大学 | 被引量 : 0次 | 上传用户:benlums
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前随着Internet信息的爆炸增长,Web服务器上数据信息已经被大量可搜索的在线数据库极大的“深化”,传统搜索引擎已经不能有效检索到隐藏在Web服务器后台在线数据库中的Deep Web信息。如何快速有效获取Deep Web信息正成为搜索引擎研究的热点和和发展趋势。本文重点对网络蜘蛛(Spider or crawler)的研究和改进,以及Deep Web信息提取涉及到的相关技术和算法问题,设计和实现了一个Deep Web网络蜘蛛。论文的主要工作包括以下几个方面:1.分析了传统搜索引擎的设计思想、工作原理和体系结构,从而发现传统搜索引擎在技术上存在的缺陷、不足之处和可改进的地方。2.分析了Deep Web信息集成系统的工作原理和体系结构,并简要说明Deep Web信息集成系统工作流程,系统组成模块中各个模块的功能。3.在以上相关理论和研究结果的基础上,提出了本文中设计Deep Web网络蜘蛛的思想、体系结构和工作流程。4.针对网页采集问题,提出有选择的采集网页类型策略和控制重复网页采集策略,有效地过滤了噪音信息和重复网页抓取问题。5.针对从静态网页中提取Deep Web数据库查询接口问题,提出通过分析网页构建网页标记树模型,通过遍历网页标记树来寻找查询接口。提出用对象模型表示(DWI)查询接口和存储表单数据,为后续查询接口合并与分类提供有效的数据表示模型和良好的存储结构,并给出具体实现算法。6.针对Deep Web查询接口合并与分类问题,提出通过聚类方法实现对其合并与分类,并设计和实现了Lmax算法,使得查询接口分类与合并的准确性有很大的提高。7.总结了Deep Web网络蜘蛛研究与开发经验,并指出了不足之处以及下一步研究的重点。
其他文献
为了解决软件复用,缩短软件开发时间,降低维护成本和实现程序动态升级,软件设计领域产生了组件化程序设计结构,并且日益成为发展趋势。微软的COM组件对象模型是当今比较成熟
网络管理和分布式技术的发展,以及J2EE技术的广泛应用推动了JMX技术的形成。JMX的全称是Java Management Extensions,由Java CommunityProcess(JCP)制定,为基于Java平台的软件和
由于数据库中存在着大量数据,因此从数据库中发现有用的信息显得十分重要。数据挖掘技术就是为解决这个问题而产生的。对数据挖掘技术的研究,国内外己经取得了许多令人瞩目的
图像插值可以改变图像分辨率,实现图像的缩放显示,是高清数字电视平板显示中的关键技术,具有非常重要的理论和应用价值。ENO(Essentially Non-Oscillatory,基本无振荡)插值方法采
Java语言的面向对象、跨平台、语言级并发支持、安全等特性不仅使它在互联网领域得到广泛应用,也引起了嵌入式领域研究人员的高度重视,Sun公司希望能将Java语言改造成实时系
逆向工程技术是随着计算机技术的发展和成熟以及数据测量技术的进步而迅速发展起来的一门新兴学科与技术。它的出现,改变了原来CAD系统中从图纸到实物的设计模式,为产品的迅
模糊规划是解决带有模糊参数规划问题的一种统一的优化理论,它可以很好的解决数学模型的约束检验和模糊目标不易转化为清晰等价类的问题。到目前为止,用于求解模糊规划问题的
字符串匹配是计算机研究领域中的一个古老、经典而且被广泛研究的课题,是信息检索领域和计算机生物学领域等的关键技术之一。在当今的互联网时代,对匹配算法的需求日新月异,
TCP是基于有线网络而设计的,并认为网络发生的丢包是拥塞丢包。但是,无线网络常常伴随着无线发送错误丢包。在这种情况下启动拥塞控制机制就必然减小发送端的拥塞窗口。丢包
随着社会的进步、国民经济的发展,电能在日常生活中扮演着越来越重要的角色,企业电网实时监控系统旨在将电能这一抽象的商品通过计算机实现其可视化和可管理化。然而目前WEB环境下的电网实时监控系统仍然存在某些不足,不能很好地适应实时系统的实时性要求,主要表现在:(1)传统刷新技术通信效率低下,当通信数据量大时数据刷新慢且资源消耗大;(2)所依赖的关系型数据库系统只强调事务一致性、可恢复性,不显式地考虑时间