论文部分内容阅读
近年来,计算机和网络技术的发展呈加速态势,但各种应用的核心——数据,仍以不同形式存储在不同的系统中,分而不聚,聚而不合,呈分布异构状态。随着应用需求的不断增加,越来越多的用户希望能够透明地获取和处理来自这些海量信息源中的有用数据,实现多个软硬件系统以及不同信息源之间的互操作。然而,这些信息源物理上可能分布在异构环境的多个自治域中,有着不同的数据格式、存储方式、访问控制策略,逻辑上则可能在数据模型、操纵语言和数据语义等方面存在着很大差异。同时,这些信息源的可共享性、共享方式、共享内容等也可能随时发生变化。设计一个支持公共数据模型和统一查询语言的异构信息集成系统(HIIS),是实现这种交互操作的一种较好办法。异构信息集成系统可以屏蔽现在已有的各种异构数据管理系统不同的访问方法和用户界面,给用户呈现一个访问多种异构数据源的公共接口,提供一个集成处理多种数据源、整合多个数据查询结果的信息交互处理平台。针对目前异构数据集成问题中的难点和关键问题,本文进行了理论研究并提出了相应的算法和解决方案。研究内容主要包括数据模式管理、数据融合、基于数据流柔性可配置数据交换。
传统数据集成系统一般了解其控制下的所有数据源的物理模式。为了达到这个目标,系统必须提供大量的适配器以屏蔽各种主流数据库的SQL方言带来的影响。但在分布式环境中,由于海量异构数据源带来的维护成本,这种自上而下的数据源管理模式是很难有效执行的。分布式环境中,上层用户与底层数据之间没有天然的联系。一个数据源被部署到网络中时根本无法预计它会被哪个实际应用所使用到,因此围绕实际应用来对用户进行培训或者对数据做包装是不可能实现的。在用户与数据之间必须有一套表达能力强大的语义描述协议来传递信息,其描述范围应该扩展到整个真实世界。而向对象的数据模式就是以此为目标的一个解决方案。在本文的系统中,数据源在注册时必须按照元数据描述规范描述自己希望提供的数据,向系统提交一棵“局部类树”;对每个局部类指定主标识符(主键);提供局部类树中每个类的实际数据访问方法(远程),方法应返回该类的全体对象集,以及每个对象的所有属性值。以上三点构成了数据源需要提供的所有元数据信息。从中可以看出,数据源不需要在参与数据集成过程中修改自己的物理数据格式,只需提供适当的元数据描述即可。相同的物理数据可以通过不同元数据描述表达不同的语义信息,而同时,上层用户只是基于元数据描述发出查询请求,他们不关心数据源的物理数据格式是怎么样的。这点给予了数据源提供者最大的灵活性来选择他们希望提供的数据和其数据所表达的实际语义,并根据实际情况动态调整。从系统角度看,这样能够控制数据源注册、修改、注销的开销,以满足分布式环境下数据源频繁更替变化的要求。
数据集成中,冲突表现为三个层次,模式冲突,表示冲突和数据冲突。我们采用了面向对象的模式管理和XML格式表示数据解决了前两个冲突,而数据冲突是目前研究最少的领域。数据集成系统各个系统可能采集相同的数据,由于处理方法等不同,其结果并不一定完全一致,因此需要解决从多个数据源中抽取相同数据存在的内容的不一致性。本文考虑数据源服务质量对数据冲突解决的影响,提出了一种采用基于规则和可信度的数据融合技术,解决多个异构数据源集成中的数据冲突问题。数据源的服务质量包括数据正确性,数据源可靠性和数据源响应时间等因素。服务质量好的数据源提供的数据质量相对较高,则在解决数据冲突时此类数据就较为可信。该技术中首先根据规则筛选符合条件的冲突数据。如果,冲突数据不符合系统定制的逻辑规则,则直接剔除,不参与融合。其后,综合考虑数据源服务质量和各数据源数据在以前数据融合中的用户采信情况(即数据源历史可信度)提供多种融合算法计算数据源提供数据的可信度。给出可信度最高的结果,并将融合结果提供给用户。用户对融合结果具有最终评定权。根据用户的反馈,对该数据所属数据源的可信度进行动态调整,产生该数据源新的历史可信度数据。从而使提供数据的准确率高,使数据源服务质量好的数据源的数据能够得到更多的利用。
各个应用系统之间存在复杂的数据交换,随着系统的扩展和应用的开发,需要不断修改数据交换的内容和定义新的数据交换。而依靠硬编码的手段来开发数据源之间的数据交换显然不够灵活。为了支持各个数据源之间的灵活交换,本文定义了一个基于柔性可配置数据流的数据交换方法,并开发了以此为核心的数据交换模块。