自动模式匹配方法关键问题研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:klose123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动模式匹配问题是数据集成、数据仓库、电子商务和P2P等很多领域重要的研究基础。本文对自动模式匹配研究领域存在的几个关键问题进行了研究,取得了以下五个方面的主要成果:第一、提出了奠基时期、发展时期和完善时期的阶段划分方法。本文系统的回顾了模式匹配问题的发展历程,对自动模式匹配研究的基本思想、技术和方法的形成和发展过程进行了全面分析,给出了自动模式匹配研究演化进程的一个全景视图,为全面认识模式匹配技术的发展水平,把握模式匹配研究的正确发展方向建立了一定的基础。 第二、提出了通用模式匹配策略中的模式内部表示模型——一种通用模式表示模型GSRM。对包括关系模式、XML模式在内的多种模式的表示形式进行了抽象和统一表示。应用该模型可以规范模式的表达形式,有效消除模式之间的表示冲突。在实际应用中,通常用有向模式图来表示关系模式模式,用模式树来表示XML模式。针对DTD模式转换过程中的简化、有向无环图及环的消解等问题,提出了相应解决方法。为异质模式匹配的建立打下了一个良好的基础。 第三、提出了一个开放式多策略通用模式匹配框架。在此框架中可以应用多种匹配策略,有效的避免了单一匹配策略的局限性;可以从模式水平和实例水平进行自动模式匹配,满足不同应用的需要。 第四、提出了一种多策略模式匹配方法。从成员水平和结构水平对模式进行匹配:从名称、基数、类型约束、结构等方面来进行匹配操作。在进行名称匹配时,采用了一种基于词语间语义距离的方法来计算其语义相似度。同时考虑了模式成员之间的基数相似度和数据类型相似度。在进行结构匹配时,针对关系模式,提出了一种基于相似度传播思想的结构匹配算法GSRM,有效的考虑了相邻相似节点间的相互影响;针对XML模式,提出了一种基于DTD树匹配的结构匹配算法DTMatch。实验表明:这两种方法明显提高了匹配精度。 第五、伴随着XML数据的大量出现,XML模式的数量也在飞速增长。对这些XML模式进行聚类,在异构数据源集成、数据仓库、模式集成等领域具有重要的作用。提出了一种分步式层次聚类算法对XML模式进行聚类。实验表明:与传统的层次聚类算法相比,该算法在保证聚类准确率的同时显著降低了聚类时间成本。 总之,本文的研究成果为进一步探讨自动模式匹配方法,从而构建实用高效的自动模式匹配系统建立了基础。
其他文献
随着激光打印机价格的降低,激光打印机市场竞争越来越激烈。然而,高分辨率和新的打印技术意味着更多的内存需求,同时也意味着打印机内存成本的提高。随着打印机控制器组件如机芯
随着Web2.0技术的成熟,社交网络已成为人们沟通交流、传播信息的重要手段,在人们日常生活中发挥着越来越重要的作用。与传统信息传播方式不同,社交网络中人与人之间的关系对信息
贝叶斯网络是一种图形知识表示工具,它描述变量之间的条件独立关系以及变量的联合概率分布情况。给定网络结构时,人们可以在某些变量被观察到的情况下通过概率推理来预测其他变
在海军武器装备中,鱼雷占有相当重要的地位,始终是海军武器研制的重点之一。在鱼雷系统中,电源组件是核心部件。因此,提高鱼雷电源组件精确快速的自动检测能力对我国鱼雷武器
学位
医学图像的三维可视化是医学信息三维可视化研究的主要内容,也是科学数据可视化研究的一个重要分支。医学图像的三维可视化是把医学图像信息以三维方式显示出来,可以给医护人员
随着多媒体信息技术、通信技术的进步以及信息高速公路的飞速发展,数字图书馆也应运而生。数字图书馆中存有大量的图像信息资源,如何有效地检索这些资源是图书馆数字化面临的
基于Linux国际化和标准化的开发实践,本文对系统软件国际化的总体结构和Linux国际化的一些关键问题进行研究,取得5个方面的主要成果: 第一,归纳了软件国际化需求,以服务分类的
自1991年由Mitchell和Papadimitriou提出带权区域问题以来,人们开始认识到带权值模型的通用性较强,陆续有很多学者开始研究这个问题。在二维带权区域近似最优路径问题中,一个二
With the rapid development of network and multimedia technology in recent years, information hiding has been a research hotspot in the area of information secur