Web信息抽取技术研究与基于Web service的实现

来源 :河北大学 | 被引量 : 0次 | 上传用户:talenthers312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的发展,WWW上积累了大量数据,成为世界上最大的数据源。但Web信息多以HTML格式发布,缺乏语义信息,造成大量的Web数据不能直接为应用程序直接使用。为了使大量的Web数据能够为以数据为驱动的应用所使用,人们广泛采用了信息抽取技术,现已成为当前研究热点之一。 在以往的工作中,我们实现了基于结构的信息抽取技术,在Web网页显示特征的深入分析基础上,以Xpath、Xquery作为抽取规则,给出了一套抽取规则的生成、优化方案。试验结果表明这套方案所使用的方法具有较高的查准率、查全率。但在该方法中对Web网页结构的几个特殊情况只做了特定地分析,缺乏理论上地系统阐述,对抽取能力的表达也不够充分。 本文仔细研究了基于结构信息抽取方法的典型系统,借鉴非1NF关系数据库的关系模式的平面化/嵌套化操作,引入了DOM的平面化/嵌套化理论,对Web网页结构做了深入分析。给出了三种基本类型的平面化/嵌套化情况:(1)集合对象平面化;(2)元组对象平面化;(3)DOM结构嵌套粒度过大。分析了各种平面化/嵌套化对抽取的影响之后,引入了结构重组规则,针对各种平面化情况采用结构重组规则给出了相应的具体解决方案,提高了系统的抽取能力。结合Web网页结构的上下文环境,对各种结构重组规则的具体解决方法的适应性进行了详细的分析,初步讨论了基于结构的信息抽取技术的抽取能力。规则重构规则中区分节点的方法不局限于基于结构的信息抽取技术,还可以采用其他信息抽取技术的方法,提高了现有信息抽取技术的效率和健壮性,同时为各种信息抽取技术的融合提供了一种思路。 Web Service的出现为数据集成提供一种很好的解决方案,本文将Web Service技术与信息抽取技术相结合,在原型系统中实现了基于Web Service的信息抽取系统。
其他文献
该文提出了以电话程控交换机(PBX)技术为基础的一种新的移动办公概念.这种移动办公概念,将会大大地节约了企业的日常运营成本,节省了大量的劳动力,优化和整合了企业内部的语
缺陷在软件产品中扮演重要角色:一方面,在测试过程中检测到缺陷时,应该对缺陷进行处理,从而保证软件有一个较高的质量;另一方面,缺陷本身带有很多重要信息,可以用这些信息来
大多数数据挖掘方法针对的对象是传统的单表形式的数据.然而,通常现实数据中包含很多不同类型的实体(多表).对这样的数据的挖掘形成了关系数据挖掘研究领域.关系数据挖掘主要
计算机辅助建筑工程量自动计算经历了二十多年的研究,形成了基于图形输入、数据交换文件等方法,并在实际运用中起到了一定的作用,但这些方法脱离了计算机辅助建筑设计,没有从根本
分布式系统的实时和容错理论的研究长期以来是基本独立的.实时问题主要关心调度,即如何设计满足实时性要求(主要是可预测性)的调度算法,并分析任务的可调度性;而主动式容错的
在分形编码方案中,L2距离被普遍采用去搜索理想的压缩映射。本文提出一种新的距离——基于Sugeno模糊积分的模糊距离FM,这种距离用于图像度量就是模糊图像度量。在分形编码中,本
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种全天候收集地表信息,并利用信号处理操作实现高分辨率成像的工具,它在自然灾害预测、军事情报侦察、地形地貌测绘、资源考
摘要: 本文分析了面向对象软件的特点及其对测试的影响,综述了面向对象软件测试的层次划分、各层的测试特点以及类级和类簇级的各种测试方法。文章着重研究探讨了面向对象测
数据库技术是计算机技术体系中最重要的部分之一.面对日益复杂的企业应用,数据持久层被提出并不断发展.它克服了传统数据库直接访问简单、僵化的缺点,大幅度提高了系统开发效
随着多核处理器的计算性能突飞猛进,成本不断降低,多核处理器已经广泛应用于嵌入式系统。另一方面,随着嵌入式系统性能的发展,图像处理技术也越来越多的应用于嵌入式系统。图像处