数据库模式匹配算法的研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:oyocean1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模式匹配被广泛应用于数据库相关领域中,例如数据集成、数据空间、DeepWeb、数据仓库、以及本体合并等。针对模式匹配的研究已有几十年的历史,从早期的手工完成匹配操作到目前的自动发现匹配,人们已经取得了很多研究成果。给定源模式和目标模式,模式匹配的目标是发现两个模式间元素的对应关系,具有对应关系的元素表示相同或者相似的语义。由于模式匹配的发现是一个利用已有知识对元素语义进行挖掘和理解的过程,所以其在一定程度上相当于自然语言处理,这也体现了模式匹配固有的困难性。因此,为进一步提高模式匹配的质量,人们仍需要更多的关于模式匹配的研究。近些年,随着互联网的发展以及通讯工具的普及,人们对数据共享和交换的需求越来越强烈,这也使得模式匹配问题成为目前的研究热点。所以针对模式匹配的研究不但具有理论意义而且具有实际应用基础。本文从数据库的查询日志中为属性提取可用于匹配的统计信息,并以此为基础,提出一些模式匹配的发现及改进算法。同时,本文对模式匹配在模式集成领域中的应用进行了研究,提出了基于用户偏好的多模式产生算法。本文主要针对关系模式的匹配问题进行探讨,具体研究工作如下:(1)匹配的发现首先,本文利用属性的出现频率来发现匹配。通过日志中每个属性在相应查询子句中的出现频率构建特征向量。采用聚类技术对不同属性的特征向量进行分组,处在同一聚类中的属性则具有相同或者相似的语义。为进一步提高聚类结果的准确性,通过最大相似性阈值来发现聚类中语义异常的属性,并设计了异常属性去除算法。实验结果表明所提出的方法具有较高的准确率。其次,本文利用属性在查询结果的模式结构中的出现顺序发现匹配。本文方法包含三个阶段。第一,从查询日志中抽取出现序列,并对属性在这些出现序列中的出现顺序进行统计。第二,利用矩阵对属性出现顺序的统计信息进行组织。第三,针对具有不同基数的映射,采用两种打分函数度量不同输入模式统计信息矩阵间的相似性,并采用模拟退火算法寻找最优映射。实验结果表明所提出的方法能返回较准确的匹配。最后,本文利用日志中关于SQL语句内容和结构的统计信息进行模式匹配。本文方法包括四个阶段。第一阶段对SQL语句的子句进行统计,并构建子句关联图cag。其次,利用cag构建“匹配对”集合,每个匹配对表示一对属性序列。第三,度量匹配对的两种相似性,即属性(property)相似性和结构相似性。最后,设计两种将匹配对分解成单一匹配的算法,并利用阈值策略选择最优匹配。实验结果表明基于查询语句的匹配方法是有效的、准确的。(2)匹配的改进针对匹配不能适应数据实例包含分类的情况,本文提出模式匹配的改进算法。从源模式的数据实例中发现隐含的分类语义,并将其与匹配进行关联以提高匹配的质量。本文方法包含三个阶段。首先,通过聚类技术发现源实例中的可能分类。其次,通过信息熵技术去除干扰属性得到真正的分类属性。最后,通过引入一个称为c-mapping的概念实现分类语义和匹配间的关联。实验结果表明本文方法具有较好的性能。(3)匹配的应用模式匹配的最终目标是解决实际问题。所以本文对模式匹配在模式集成中的应用进行了研究,提出一种基于用户偏好的自动的模式集成方法。通过引入一个称为参考模式的概念将用户偏好实例化。参考模式能够导向集成过程根据用户偏好产生中间模式(集成模式)。本文通过属性密度方法测量候选模式与标准模式间的相似性。在此基础上,设计一个top-k排序算法用于找到k用户真正需要的中间模式作为算法最后的输出。实验结果表明本文方法具有较高的效率。
其他文献
语义Web是当前Web的延伸,它赋予Web资源机器可理解的语义,从而使计算机能够更好地与人协同工作。语义Web的目标之一是推理Web上广泛存在的知识和数据,因此如何表示这些知识和
对等网络(Peer-to-Peer Network,简称P2P)打破了传统的“客户机/服务器”模式,能够提高网络工作效率、充分利用网络带宽、开发每个网络结点的潜力、具有高可扩展性和容错性,
本研究旨在探究表儿茶素(epicatechin,EC)对小鼠体外成熟培养卵母细胞线粒体DNA(mtDNA)拷贝数及其随后孤雌激活胚胎发育能力的影响。小鼠卵丘-卵母细胞复合体(COCs)在添加不
为更好地贯彻执行《会计法》,深化会计人员管理体制的改革,完善监督制约机制.促进党风和廉政建设.促进社会主义市场经济健康发展,依据财政部、监察部联合印发《关于试行会计委派制
随着计算机技术、网络技术和数据库技术的快速发展,如何存储和管理在网络中的海量数据是计算机领域的一个重要问题。P2P模型是一种新型的体系结构模型,其中的每个成员都可分
本文就香港目前广泛使用的小型机械施工技术。通过对比,分析了大陆目前施工机械应用的现状和不足,并对将来在大陆广泛推广应用小型施工机械技术提出了自己的看法。
本文分析了高校化学实验教学改革的背景,针对传统的实验教学的不足,结合教学实践,总结经验。对怎样在有效的时间内,让学生在掌握实验技能的同时,提升本身的综合素质的实验教
京津可持续发展面临严重的环境桎梏.为保障京津两市的生态安全和满足社会经济发展的需要,环京津地区开展了一系列的生态建设工程,并为此做出了巨大牺牲。但由于没有根本解决生态
<正> 日本神户制钢所大久保建设机械工场适应市场需要,研制了RK70型小型轮胎起重机,第一批(400台)投入市场后,用户反映良好。现将该机简介如下。 1 技术性能 RK70型小型轮胎
怎样拆卸并修复机车上的各种螺栓徐立汉各种建筑机械都是由成百上千的螺栓,将许多零、部件组装成一体的,因此,在机车的使用、保养或维修中,经常需要拆卸各种各样的螺栓。其中有些