Web信息抽取技术研究与基于Web service的实现

来源 :河北大学 | 被引量 : 0次 | 上传用户：talenthers312

【摘要】

：

随着Internet技术的发展，WWW上积累了大量数据，成为世界上最大的数据源。但Web信息多以HTML格式发布，缺乏语义信息，造成大量的Web数据不能直接为应用程序直接使用。为了使大量的W

【作者】

：

张志强

【机构】

：

河北大学

【出处】

：

河北大学

【发表日期】

：

2004年期

【关键词】

：

信息抽取语义模式 DOM 平面化/嵌套化 Web Serviee

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet技术的发展，WWW上积累了大量数据，成为世界上最大的数据源。但Web信息多以HTML格式发布，缺乏语义信息，造成大量的Web数据不能直接为应用程序直接使用。为了使大量的Web数据能够为以数据为驱动的应用所使用，人们广泛采用了信息抽取技术，现已成为当前研究热点之一。在以往的工作中，我们实现了基于结构的信息抽取技术，在Web网页显示特征的深入分析基础上，以Xpath、Xquery作为抽取规则，给出了一套抽取规则的生成、优化方案。试验结果表明这套方案所使用的方法具有较高的查准率、查全率。但在该方法中对Web网页结构的几个特殊情况只做了特定地分析，缺乏理论上地系统阐述，对抽取能力的表达也不够充分。本文仔细研究了基于结构信息抽取方法的典型系统，借鉴非1NF关系数据库的关系模式的平面化／嵌套化操作，引入了DOM的平面化／嵌套化理论，对Web网页结构做了深入分析。给出了三种基本类型的平面化／嵌套化情况：(1)集合对象平面化；(2)元组对象平面化；(3)DOM结构嵌套粒度过大。分析了各种平面化／嵌套化对抽取的影响之后，引入了结构重组规则，针对各种平面化情况采用结构重组规则给出了相应的具体解决方案，提高了系统的抽取能力。结合Web网页结构的上下文环境，对各种结构重组规则的具体解决方法的适应性进行了详细的分析，初步讨论了基于结构的信息抽取技术的抽取能力。规则重构规则中区分节点的方法不局限于基于结构的信息抽取技术，还可以采用其他信息抽取技术的方法，提高了现有信息抽取技术的效率和健壮性，同时为各种信息抽取技术的融合提供了一种思路。 Web Service的出现为数据集成提供一种很好的解决方案，本文将Web Service技术与信息抽取技术相结合，在原型系统中实现了基于Web Service的信息抽取系统。

其他文献

基于PBX的移动办公语音系统的分析与设计

该文提出了以电话程控交换机(PBX)技术为基础的一种新的移动办公概念.这种移动办公概念,将会大大地节约了企业的日常运营成本,节省了大量的劳动力,优化和整合了企业内部的语

学位

电话程控交换机(PBX)个人授权码(PIN)面向对象分析与设计DB2Servlet集群

基于新缺陷分类模型的缺陷跟踪管理

缺陷在软件产品中扮演重要角色:一方面,在测试过程中检测到缺陷时,应该对缺陷进行处理,从而保证软件有一个较高的质量;另一方面,缺陷本身带有很多重要信息,可以用这些信息来

学位

缺陷缺陷分类模型缺陷跟踪审查测试度量

约束归纳逻辑程序设计系统的研究与实现

大多数数据挖掘方法针对的对象是传统的单表形式的数据.然而,通常现实数据中包含很多不同类型的实体(多表).对这样的数据的挖掘形成了关系数据挖掘研究领域.关系数据挖掘主要

学位

数据挖掘归纳逻辑程序设计约束归纳逻辑程序设计模式识别多元统计分析

基于矢量的建筑工程图对象识别算法的研究及其应用

计算机辅助建筑工程量自动计算经历了二十多年的研究，形成了基于图形输入、数据交换文件等方法，并在实际运用中起到了一定的作用，但这些方法脱离了计算机辅助建筑设计，没有从根本

学位

矢量图傅氏变换模糊技术图形分类特征参数

容错ORB系统中避免组优先级倒置的研究及原型实现

分布式系统的实时和容错理论的研究长期以来是基本独立的.实时问题主要关心调度,即如何设计满足实时性要求(主要是可预测性)的调度算法,并分析任务的可调度性;而主动式容错的

学位

实时容错组优先级倒置GAF一致性计算CORBA

非线性方法在图像处理和电力市场中的若干应用

在分形编码方案中，L2距离被普遍采用去搜索理想的压缩映射。本文提出一种新的距离——基于Sugeno模糊积分的模糊距离FM，这种距离用于图像度量就是模糊图像度量。在分形编码中，本

学位

模糊积分分形编码线性岭回归神经网络电力负荷预测市场清算价格图像处理电力市场

星载SAR实时成像系统主控软件的设计与实现

合成孔径雷达(Synthetic Aperture Radar,SAR)是一种全天候收集地表信息,并利用信号处理操作实现高分辨率成像的工具,它在自然灾害预测、军事情报侦察、地形地貌测绘、资源考

学位

合成孔径雷达实时系统实时控制实时操作系统VxWorks

面向对象测试方法在空管系统中的应用研究

摘要: 本文分析了面向对象软件的特点及其对测试的影响,综述了面向对象软件测试的层次划分、各层的测试特点以及类级和类簇级的各种测试方法。文章着重研究探讨了面向对象测

学位

面向对象软件测试特点测试方法实时软件状态图自动化测试

基于Agent技术的持久层设计及应用

数据库技术是计算机技术体系中最重要的部分之一.面对日益复杂的企业应用,数据持久层被提出并不断发展.它克服了传统数据库直接访问简单、僵化的缺点,大幅度提高了系统开发效

学位

数据持久化持久层代理关系数据库

aCoral操作系统图像处理函数库开发及并行优化

随着多核处理器的计算性能突飞猛进，成本不断降低，多核处理器已经广泛应用于嵌入式系统。另一方面，随着嵌入式系统性能的发展，图像处理技术也越来越多的应用于嵌入式系统。图像处

学位

图像处理aCoral嵌入式系统并行化

Web信息抽取技术研究与基于Web service的实现

与本文相关的学术论文