论文部分内容阅读
充分利用各种分散、异构的数据资料,建立数据集成应用系统,为管理决策服务,已成为当前信息化发展的一个新课题。构建数据集成系统的基本目标是,在不影响现有应用系统运行的情况下,集成这些可能是高度分布、异构或分立运行的应用系统所产生的数据,并为用户或高级应用提供透明、一致的信息服务和统一的数据应用入口。然而,在数据资源快速增长和高速演化的网络应用环境下,实现这一目标是一个困难而且复杂的任务。本文在充分研究已有数据集成方法和相关技术的基础上,结合有关工程实践,围绕数据集成这一应用主题,展开了较为系统深入的工作。本文中重点研究了能适应复杂网络环境,且具有良好性能和可伸缩性的数据集成方法。论文的主要研究工作和创新成果如下:1.提出一种数据集成处理说明语言DISL,并以DISL为基础实现了一个异构数据集成平台。DISL语言的主要成份都可对应到图元,能从一个高度抽象的层次来表达数据抽取、加工变换和合成等数据处理语义。借助该平台,可针对局域网范围内一个或多个数据源,以图形化方式,辅助构造可解释执行的数据集成处理说明包DISL-Mediator,实现局部异构数据集成。该数据集成平台,已被集成到本文“基于数据服务概念的数据集成系统”中,作为实现该系统在数据源端服务组件的内核。此外,该平台目前也已通过山西省电力公司验收,并在太原、阳泉等几家电力企业投入了业务试运行。还以“企业数据集成平台系统(简称EDIS)”为名称进行了软件著作登记(登记号:2005SR12507,著作权号044008)。2.提出了一种采用多层结构组织DW数据的设计方案,能有效提高DW系统对需求变化的适应能力。该方案除了一般DW都有的分析数据层外,还附加引入规范后的业务数据层。业务数据层本身还可按业务数据特点进一步分层组织,并采用规范、无冗余的结构设计;分析数据层则按数据分析的主题进行组织,也可按数据浓缩度或粒度大小进一步分层,并可引入适度的冗余技术以提高查询性能。3.对移动Agent平台Aglets进行了面向分布数据收集方面的功能扩展,并将扩展的Aglets平台集成到本文基于数据服务概念的数据集成系统中,作为系统下层获取各数据服务单元执行结果的支持平台。有关实验测试结果表明,移动Agent可显著提高系统在获取分布数据环节的性能、灵活性和可靠性。4.研究了描述逻辑(DL)有关技术及其推理算法,优化改进了DL-推理机中计算本体概念层次结构树的算法。该算法可以充分利用DL-知识库的显式知识,从而可减少大量的实际推理计算,有效提高算法性能。同时借助改进后的算法,还可更方便计算层次结构树中指定概念的超类概念集、子概念集、等价概念集、不相交概念集和实例集。5.设计了一种具有智能化特点的、基于数据服务单元(DS-Cell)的匹配检索算法。该算法的实现融合了基于逻辑的语义匹配技术和基于内容的语法相似匹配技术。算法的有效性测试结果表明,该算法能很好工作,能有效解决数据服务匹配检索中两概念子集的匹配判定问题。6.提出了一种基于数据服务匹配的数据集成新方法:该方法将能提供数据资源的各个网络节点,以DS-Cell作为基本单位向数据服务中心注册,由此实现分散数据服务的主动发布和集中管理。然后以数据服务注册库为中心,并融合应用语义WEB、OWL和DL推理等智能化技术,匹配检索已注册的数据服务单元,实现动态的数据集成查询处理。该方法能充分利用数据的形式语义和基于本体的概念进行知识推理。基于该方法,本文设计了一个相对完整的数据集成原型系统,完成主要的算法设计、调试和部分模块实现,并针对目标系统的核心组件“数据服务匹配器”进行实验测试和分析。结果表明,基于该方法设计的系统能有效、可靠工作,能以透明、一致的方式实现分布异构数据集成,并且能很好兼顾系统灵活性和性能。