基于视觉分块与语义DOM的Deep Web信息抽取研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:ssm3695
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐藏在普通搜索引擎的背后,需要用户提交表单查询并从后台数据库中返回结果页面才能获取到的信息,称为Deep Web。当前对Deep Web数据抽取的研究是一个比较热门的话题。随着页面结构变得越来越复杂,以及动态网页技术的引入,使得Deep Web页面存在异构性和半结构化的特点。如何快速有效地从这些半结构化的结果页面中抽取用户感兴趣的数据以提供特定的服务成为一个难点。目前研究的主要问题包括:(1)如何有效快速地识别噪声信息,使得在对原始页面分析之前尽可能对页面进行清洗;(2)如何根据DOM树结构和页面视觉信息快速定位页面的主数据区域;(3)如何不受页面结构差异的影响尽可能自动地抽取页面数据。针对上述问题,传统的单一的基于DOM树的页面分析方法已经无法满足用户的需求。因为单一的基于DOM树的页面分析方法主要依赖DOM树的结构特征,需要解析页面所有的标签将其转化为DOM树,忽略了页面的一些有效的视觉特征,并且一旦页面的结构发生变化,需要重新对页面的结构进行分析再抽取。目前,微软亚洲研究院提出了一种新的页面数据抽取方法—VIPS算法。VIPS算法打破了以往传统的基于DOM树抽取方法,从人的视觉角度出发,把页面分割为一个个有效的视觉块,并对这些视觉块进行语义重组,形成一棵视觉块树。该算法在DOM树结构和页面的语义之间建立了桥梁。本文通过分析Deep Web结果页面的特点,结合人的视觉特征,在VIPS算法的基础上提出了一种基于基准视觉块的Deep Web信息抽取方法。该方法首先对页面的标签进行了分析,在解析器将Web文档解析成语法树之前,将Web页面一些与主题无关的信息(例如导航栏、广告)等去除,并对优化后的DOM树利用VIPS算法对其进行语义分块,分块后根据坐标位置首先寻找到基准视觉块,以该基准视觉块作为中心位置逆序和顺序遍历DOM树并采用线性特征向量判别法寻找所有相似的视觉块对其进行抽取。从实验效果来看,本文提出的基于基准视觉块的页面数据提取方法具有一定的可行性并在提取数据的准确率方面与传统的方法相比有了一定的提高。
其他文献
随着网络技术的不断发展,基于UDDI的传统的Web服务发现技术已越来越不能满足目前的需求。UDDI由于没有提供足够的语义信息,只能够进行基于关键字的服务查找,匹配精度不高。因
随着全球经济一体化,各个行业的竞争也越来越激烈。对于机械加工企业来说,如何提高生产率、产品质量和减少生产成本,成为企业关注的焦点话题,也成为企业生存的根本因素之一。
随着多媒体技术和网络的快速发展,图像信息资源大量增多,图像的有效管理和检索变得越来越重要。用户如何从海量图像数据库中快速而又淮确地检索出需要的图像,是目前研究的一
传统的信息检索技术往往是集中式的,随着数据量的指数增长,这种集中式的数据存放对于数据库的更新维护带来很大的难度,同时检索查询操作也变得非常费时,这造成了整个系统性能
话题识别与跟踪,作为一项旨在帮助人们应对信息过载问题的研究,以新闻专线、广播、电视等新闻媒体信息流为处理对象,将语言形式的信息流分割为不同的新闻报道,监控对新话题的
缓冲区溢出攻击是利用缓冲区溢出漏洞所进行的攻击。缓冲区溢出是指当计算机向缓冲区内填充数据时超过了缓冲区本身的容量,溢出的数据覆盖在合法数据上。缓冲区溢出是一种非常
图像数据包含着丰富的信息,但相应的数据量也非常大。因此,在实时应用中,对图像的检索具有了更高的要求。现有的基于内容的检索方式(CBIR),虽然检索效果相对较好,但需要对图
选举是当今公民实现民主的重要方式,相比于传统选举方式,电子选举以密码学为基础,可以有效避免在各个环节中出现徇私舞弊现象,并且通过使用高效的计算机来对选票进行最后的统
随着信息化建设的深入和网络技术的发展,相当数量的企业积累了大量的存储在不同平台、依赖于不同数据库管理系统的数据和众多非结构化数据(如XML文档、文本文件等)。如何通过
随着互联网应用的飞速发展,数据量的积累也越来越多。如何更高效快捷地从海量数据中得到有价值的信息并将其应用到相关领域中,成为当前范围内急需解决的前沿问题。为了解决这