基于Web Service的数据交换和集成平台

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:lucien001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,计算机和网络技术的发展呈加速态势,但各种应用的核心——数据,仍以不同形式存储在不同的系统中,分而不聚,聚而不合,呈分布异构状态。随着应用需求的不断增加,越来越多的用户希望能够透明地获取和处理来自这些海量信息源中的有用数据,实现多个软硬件系统以及不同信息源之间的互操作。然而,这些信息源物理上可能分布在异构环境的多个自治域中,有着不同的数据格式、存储方式、访问控制策略,逻辑上则可能在数据模型、操纵语言和数据语义等方面存在着很大差异。同时,这些信息源的可共享性、共享方式、共享内容等也可能随时发生变化。设计一个支持公共数据模型和统一查询语言的异构信息集成系统(HIIS),是实现这种交互操作的一种较好办法。异构信息集成系统可以屏蔽现在已有的各种异构数据管理系统不同的访问方法和用户界面,给用户呈现一个访问多种异构数据源的公共接口,提供一个集成处理多种数据源、整合多个数据查询结果的信息交互处理平台。针对目前异构数据集成问题中的难点和关键问题,本文进行了理论研究并提出了相应的算法和解决方案。研究内容主要包括数据模式管理、数据融合、基于数据流柔性可配置数据交换。   传统数据集成系统一般了解其控制下的所有数据源的物理模式。为了达到这个目标,系统必须提供大量的适配器以屏蔽各种主流数据库的SQL方言带来的影响。但在分布式环境中,由于海量异构数据源带来的维护成本,这种自上而下的数据源管理模式是很难有效执行的。分布式环境中,上层用户与底层数据之间没有天然的联系。一个数据源被部署到网络中时根本无法预计它会被哪个实际应用所使用到,因此围绕实际应用来对用户进行培训或者对数据做包装是不可能实现的。在用户与数据之间必须有一套表达能力强大的语义描述协议来传递信息,其描述范围应该扩展到整个真实世界。而向对象的数据模式就是以此为目标的一个解决方案。在本文的系统中,数据源在注册时必须按照元数据描述规范描述自己希望提供的数据,向系统提交一棵“局部类树”;对每个局部类指定主标识符(主键);提供局部类树中每个类的实际数据访问方法(远程),方法应返回该类的全体对象集,以及每个对象的所有属性值。以上三点构成了数据源需要提供的所有元数据信息。从中可以看出,数据源不需要在参与数据集成过程中修改自己的物理数据格式,只需提供适当的元数据描述即可。相同的物理数据可以通过不同元数据描述表达不同的语义信息,而同时,上层用户只是基于元数据描述发出查询请求,他们不关心数据源的物理数据格式是怎么样的。这点给予了数据源提供者最大的灵活性来选择他们希望提供的数据和其数据所表达的实际语义,并根据实际情况动态调整。从系统角度看,这样能够控制数据源注册、修改、注销的开销,以满足分布式环境下数据源频繁更替变化的要求。   数据集成中,冲突表现为三个层次,模式冲突,表示冲突和数据冲突。我们采用了面向对象的模式管理和XML格式表示数据解决了前两个冲突,而数据冲突是目前研究最少的领域。数据集成系统各个系统可能采集相同的数据,由于处理方法等不同,其结果并不一定完全一致,因此需要解决从多个数据源中抽取相同数据存在的内容的不一致性。本文考虑数据源服务质量对数据冲突解决的影响,提出了一种采用基于规则和可信度的数据融合技术,解决多个异构数据源集成中的数据冲突问题。数据源的服务质量包括数据正确性,数据源可靠性和数据源响应时间等因素。服务质量好的数据源提供的数据质量相对较高,则在解决数据冲突时此类数据就较为可信。该技术中首先根据规则筛选符合条件的冲突数据。如果,冲突数据不符合系统定制的逻辑规则,则直接剔除,不参与融合。其后,综合考虑数据源服务质量和各数据源数据在以前数据融合中的用户采信情况(即数据源历史可信度)提供多种融合算法计算数据源提供数据的可信度。给出可信度最高的结果,并将融合结果提供给用户。用户对融合结果具有最终评定权。根据用户的反馈,对该数据所属数据源的可信度进行动态调整,产生该数据源新的历史可信度数据。从而使提供数据的准确率高,使数据源服务质量好的数据源的数据能够得到更多的利用。   各个应用系统之间存在复杂的数据交换,随着系统的扩展和应用的开发,需要不断修改数据交换的内容和定义新的数据交换。而依靠硬编码的手段来开发数据源之间的数据交换显然不够灵活。为了支持各个数据源之间的灵活交换,本文定义了一个基于柔性可配置数据流的数据交换方法,并开发了以此为核心的数据交换模块。
其他文献
RNA作为一种重要的生物大分子,在生命活动中具有关键性的作用。自2000年以来有关RNA的研究已经有6年被Science杂志列入世界十大科技进展,这充分说明了RNA的研究在当前生物学领
微数据是指与个人、公司、社团等个体相关的数据,这些数据对趋势分析、疾病研究、市场分析等都具有重要的意义。因此,很多组织都在收集或发布大量的微数据。但是,微数据的发布会
近年来,越来越多的基于中间件的构件化系统被用于实现跨网络的业务协同。这些系统必须保证只有合法的用户才能访问系统中的敏感资源,即正确地实施访问控制,否则可能导致企业资产
学位
随着科学技术的飞速发展和互联网的广泛普及与应用,即时通信已经成为人们交流的重要手段。在园区网络中,除了传统邮件等信息交流手段外,即时通信作为一种方便有效的交流方式,
航线问题关系我国重要的海运和海上贸易等领域,是一个重要的决策问题。随着国内国际贸易形势的良性发展、市场经济体制的日臻完善,国内各航运公司在同类市场的竞争日趋激烈。在
学位
文件系统或裸设备被广泛使用在各种关键的集群系统中。随着应用对可用性要求越来越高,这两种技术都暴露出一些缺点。文件系统有两个主要问题。第一,冗余问题,既任一时刻它只
经过二十多年的发展,时态数据库理论研究取得了丰富的成果,而时态数据库实现技术尚处于起步阶段,目前国内外还没有一个真正意义上的时态数据库管理系统,因此开发一个时态数据库中
数据网格为用户屏蔽了底层的物理资源,实现了异构、分布海量数据的一体化访问、存储、传输和管理。副本管理是数据网格中的一个关键技术,它能极大地提高数据的安全性、可靠性以
安全是Web应用的核心。许多Web应用基于Windows的IIS服务,其安全控制全面集成于Windows安全体系,提供了包括多种措施在内的安全机制。然而,IIS安全机制过于简单,因此.NET平台对基
目标跟踪在目标运动的视觉分析中占有重要的地位,属于视觉的中层部分。利用目标的跟踪,可以方便地获得目标的运动、姿态、行为参数,为后续的高层的行为理解和识别奠定了基础。目
学位