基于XML的异构数据集成研究

被引量 : 0次 | 上传用户:xumeg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的飞速发展和信息化建设的大力推进,各种网络中可供利用的信息总量正以惊人的速率增长。但这些为不同应用服务的信息都存储在许多不同的数据源之中,其数据内容、数据格式和数据质量千差万别,且其管理系统也各不相同。为更有效地利用这些信息,需要对多个分布、异构和自治的数据源中的信息进行集成,向用户隐藏这些差异,提供给用户一个统一和透明的数据访问接口,同时还需要保持数据在不同系统上的完整性和一致性。因此,在信息集成过程中,如何有效解决这些差异是信息集成研究与应用领域所面临的一大挑战。近年来,随着XML这样一种文档结构描述语言的不断发展和壮大,以XML及其相关技术为基础的半结构化信息表示技术正在影响着信息技术领域和计算机技术领域发生着重大的变化,本文探讨了如何运用XML技术,集成结构化和非结构化的问题。论文从以下几个方面的内容进行了阐述:(1)对集成的数据进行了分类,一类是结构化数据,另一类是非结构化的数据。在这里我们把半结构化的数据看做是非结构化数据的特殊情况。本文提出一种对数据进行分类集成的策略,在Mediator/Wrapper的方式下,单独构建一个数据集成池,专门用来整合集成结构化数据。(2)详细论述了XHDIS信息集成系统原型的各个功能模块和系统构架。(3)对信息集成中的相关技术进行了深入分析,如模式集成及公共数据模型和包装器(Wrapper)模板生成等。(4)由于采用分类集成的策略,因而在非结构化数据的处理,本文的重点放在了如何通过定制非结构化数据的提取规制,通过转化成XML数据的形式来进行集成。重点讨论了以HTML/XML的Web页面的提取规则。最后在总结全文的基础上,结合其它与集成系统相关技术的发展趋势,提出了若干有待进一步深入研究和探讨的问题。
其他文献
2007—2008年金融危机后全球经济进入了一个不稳定、经济增长下滑的新阶段。但是我们可以通过G20国家规模空前的货币供应量和财政支出,效仿1930年代的做法,设法规避经济崩溃
目的:观察剖宫产的社会影响因素,提出对策。方法:对2010年5月-2011年5月1615例分娩孕妇进行问卷调查,统计出分娩总数、剖宫产数及社会因素原因。结果:1615例分娩孕妇中进行剖
<正> 斯大林模式是斯大林关于社会主义经济模式理论的简称,它是苏联传统经济体制的理论基础。半个多世纪以来,社会主义经济发展都与这一模式有关。它的一些基本原则,至今还制
克拉玛依电厂作为克拉玛依电网主力电厂,由于缺乏备用装机容量,而且设备陈旧,年运行期过长,在负荷高峰季节均处在运行状态,几乎没有备用发电机组,已很难保证油田用电可靠性的
目的:为促进城市独居老人身心健康,提高其生活质量,采用户外活动干预方式,增强城市独居老人主观幸福感。方法:运用问卷调查法、实验法对长春市独居老人的主观幸福感水平进行
近年来,我国职业病发病呈逐年上升趋势,但因职业病患者损害赔偿相关法律法规不完善,导致职业病患者诊断难、赔偿难的情况时有发生,并由此引发社会极大关注。本文对我国现行法
我国社会保障体系经过二十多年的发展,从无到有,逐步规范、壮大,到目前已形成了一个比较健全的制度体系。但就社会保险扩面征缴工作而言,当前仍有大量已就业的社会劳动力没有
随着我国侵权行为立法进程的加快,关于相关侵权行为理论的探讨也得到了进一步的深化。在数人侵权体系中,无意思联络的数人侵权行为的理论研究离不开共同侵权行为理论的廓清,
在中国进入21世纪以后,人力资源因为其有很强的背景依赖性和路径依赖性,越来越成为中国企业获得国际竞争力的潜力。而人力资源管理的质量正是使这一“潜力”产生作用的关键所
全球公共产品理论为全球性公共卫生问题的解决提供了一个分析视角。公共卫生安全危机的全球化,彰显了全球卫生治理的紧迫性和必要性。公共卫生安全的全球公共产品性质分析,有