信息集成中Web信息抽取技术的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:eg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上信息爆炸,如何快速检索需要信息以及更有效的利用这些信息,成为亟待解决的问题。本文介绍了信息集成系统WS-IIS,该系统整合各种异质的数据源以及Web服务,其中就包含Web数据源。作为WS-IIS一个辅助部分,Web信息抽取子系统提供将Web网站提供的信息封装为Web服务,供信息集成系统使用。 本文研究的内容包括Web信息抽取规则和抽取流程两部分。Web页面一般是HTML语言描述的,着重于数据的呈现,而不是数据的描述。信息集成系统没有办法直接利用这些页面上的信息,所以需要Wrapper包装器程序将这些页面抽取至目标模式。Wrapper的核心是抽取规则。本文提出的基于DOM的信息抽取方法,提出用标准的XMI,技术操纵Web页面,将数据提取出来。抽取试验证明了这种抽取方法的可行性。抽取规则只解决了从Web页面抽取出数据至目标模式的问题,然而在互联网环境下,Web信息集成面临许多新的挑战。本文提出了信息抽取流程和基于流程的信息抽取框架。XML描述的抽取流程取代了传统的特定程序语言设计的Wrapper,抽取过程的执行由流程执行引擎完成。在此基础上,信息抽取框架实现了Web服务动态封装,将抽取过程封装为独立的Web服务供信息集成系统使用。
其他文献
本论文研究的是噪声背景下的莫尔斯信号的实时检测和识别技术。在通讯系统中不可避免的要有噪声的干扰,对于通过短波信道传输的莫尔斯信号更是如此。这对于从事人工接听莫尔斯
随着嵌入式系统的发展,嵌入式操作系统得到广泛应用,文件系统在整个嵌入式系统中日益成为重要的组成部分。JFFS2是一种基于Flash存储器的日志型文件系统。做为一种纯日志型的文
随着互连网技术的快速发展,网络结构的日益复杂,网络的安全性、可管理性及传统应用受到了挑战。网络新应用层出不穷,网络结构从传统的非对称的C/S,B/S模式,逐渐转向P2P结构的应用模
随着数据库技术的应用越来越普及,各行各业在经营过程中收集了大量的业务数据,在这大量的数据中蕴藏着丰富的信息,如何挖掘出这些信息使其成为有用的知识,指导企业的经营决策
网格计算作为一种新型的具有广泛应用前景的分布式技术,其安全问题一直是研究的热点。随着对网格应用的不断深入,如何最大限度的使用用户原有系统正日益成为影响用户接纳网格的
本文在全面介绍和评述电力系统微机保护原理及其发展趋势的基础上,对电力系统中大量应用的120KV电压等级的电力变压器的热保护进行了专门研究。根据这一类电力变压器的运行特
随着互联网应用的普及,信息安全的观念已深入人心。从技术角度讲,密码技术是使信息系统达到安全的核心手段。密码体制按密钥可以划分为传统密码体制和公钥密码体制两种。公钥密
由于数据采集系统的应用范围越来越宽、所涉及到的测量信号和信号源的类型越来越多、对测量的要求也越来越高,国内现在已有不少数据测量和采集的系统,但很多系统存在功能单一、
随着Web信息的爆炸式增长,如何构建Web信息集成系统来有效地组织和管理分布于世界各地海量的Web数据,从中有效的获取有用信息,成为人们最关注的问题。本文在深入分析和讨论We
支持向量机(SVM,Support Vector Machines)是在统计学习理论基础上发展起来的一种新的机器学习方法,具有理论完备、全局优化、泛化性能好、算法复杂度与特征空间维数无关等优