论文部分内容阅读
自动模式匹配问题是数据集成、数据仓库、电子商务和P2P等很多领域重要的研究基础。本文对自动模式匹配研究领域存在的几个关键问题进行了研究,取得了以下五个方面的主要成果:第一、提出了奠基时期、发展时期和完善时期的阶段划分方法。本文系统的回顾了模式匹配问题的发展历程,对自动模式匹配研究的基本思想、技术和方法的形成和发展过程进行了全面分析,给出了自动模式匹配研究演化进程的一个全景视图,为全面认识模式匹配技术的发展水平,把握模式匹配研究的正确发展方向建立了一定的基础。
第二、提出了通用模式匹配策略中的模式内部表示模型——一种通用模式表示模型GSRM。对包括关系模式、XML模式在内的多种模式的表示形式进行了抽象和统一表示。应用该模型可以规范模式的表达形式,有效消除模式之间的表示冲突。在实际应用中,通常用有向模式图来表示关系模式模式,用模式树来表示XML模式。针对DTD模式转换过程中的简化、有向无环图及环的消解等问题,提出了相应解决方法。为异质模式匹配的建立打下了一个良好的基础。
第三、提出了一个开放式多策略通用模式匹配框架。在此框架中可以应用多种匹配策略,有效的避免了单一匹配策略的局限性;可以从模式水平和实例水平进行自动模式匹配,满足不同应用的需要。
第四、提出了一种多策略模式匹配方法。从成员水平和结构水平对模式进行匹配:从名称、基数、类型约束、结构等方面来进行匹配操作。在进行名称匹配时,采用了一种基于词语间语义距离的方法来计算其语义相似度。同时考虑了模式成员之间的基数相似度和数据类型相似度。在进行结构匹配时,针对关系模式,提出了一种基于相似度传播思想的结构匹配算法GSRM,有效的考虑了相邻相似节点间的相互影响;针对XML模式,提出了一种基于DTD树匹配的结构匹配算法DTMatch。实验表明:这两种方法明显提高了匹配精度。
第五、伴随着XML数据的大量出现,XML模式的数量也在飞速增长。对这些XML模式进行聚类,在异构数据源集成、数据仓库、模式集成等领域具有重要的作用。提出了一种分步式层次聚类算法对XML模式进行聚类。实验表明:与传统的层次聚类算法相比,该算法在保证聚类准确率的同时显著降低了聚类时间成本。
总之,本文的研究成果为进一步探讨自动模式匹配方法,从而构建实用高效的自动模式匹配系统建立了基础。