面向关系数据库的模式匹配方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:levychan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的高速发展,不同企业在实际应用中都产生了大量的数据,这些数据通常以关系数据库形式存储,并维护于各自的信息系统当中。随着信息共享需求的日益加强,企业内部或企业之间通常需要对已有数据进行交换,进而挖掘出有利于商业智能的信息。然而,在数据集成过程中,人们发现即使对于同一应用领域,其数据库模式的设计也往往存在较大差异,这种异构性严重阻碍了数据间的互操作性。目前,该问题的主要解决方式是由系统设计者或DBA手动建立两个模式元素间的对应关系,并在此基础上实现异构数据间的集成,然而该操作却需要花费大量的人力和物力,且容易出现较多错误。此外,随着数据库应用领域的不断扩展,异构数据源的数量呈指数级增长,数据库中可能包含数百张表、上千个属性,显然单纯的手工匹配方式已不能满足应用的需求。近年来,一些半自动/自动化的模式匹配方法被提出,这些方法利用模式信息、数据实例信息和元素间的结构信息对匹配关系进行推理,进而实现元素对应关系的自动发现。相对来说,基于模式信息的匹配方法相对简单,信息获取也较容易,因此早期的模式匹配方法主要集中于该类信息的使用,但由于其信息量有限,故在应用上具有一定的局限性。随后人们开始致力于数据实例信息或结构信息的使用,并希望从中挖掘出更有价值的信息,进而增强匹配关系的发现。总体来看,基于上述信息的模式匹配方法虽然在某种程度上缓解了异构数据集成所带给人们的压力,但仍存在些许不足:首先,匹配操作过于追求自动化,其内在固有的不确定性导致匹配结果需要花费大量人力去验证;其次,为了便于记忆,越来越多的企业将模式或模式所含元素以中文方式命名,致使已有传统的模式匹配方法适用性不高,进一步增加了匹配的难度;再次,以往匹配方法较多关注于模式信息的运用,而较少考虑数据实例或数据实例所反映出的其他信息,该类信息对于匹配操作来说同样具有参考价值;最后,不同匹配方法的适用性有所不同,在缺少专业知识的情况下,用户无法做出合理判断,导致匹配方法选择不当使得匹配结果可用性不高。为此,结合已有的模式匹配算法,本文针对关系数据库中的模式匹配方法开展了以下几个方面的研究工作:1)研究匹配过程中专家知识的有效引入。在执行整体匹配之前,首先基于元素名称确定待匹配模式元素间的初步对应关系,并选取少量关系交由用户验证,以此推理出当前任务下已知的匹配、不匹配关系和不同匹配器的适用性;然后基于上述分析所收集到的先验知识对匹配器进行选取,并指导单独匹配器所得结果的合并、调整及优化;最后对优化结果的选择性进行评估,从而为当前匹配任务推荐最为合理的候选匹配生成方案。2)研究中文环境下的模式冲突问题。对缺少数据实例信息或仅能获取元素中文描述信息的待匹配模式,首先提取数据字典中有关元素的中文描述信息,利用中文信息处理技术将其转化为词条向量的形式,并采用聚类分析技术将特征相似的关系划分到相同聚簇中,进而缩小匹配执行范围,提高整体匹配效率;对于同一聚簇中的不同关系,借助辅助词典中词语的组织方式计算元素间的中文语义相似度,并采用多种选择策略相结合的方法对匹配结果进行过滤。3)研究面向数据的模式匹配解决方案。在模式信息不可用或不充足的情况下,该方法利用相似数据检测算法标识出待匹配模式数据实例间的相似元组,并以此生成元素间的初始相似度;此外,对于关系中的每个元素,该方法利用数据实例所蕴含的元素内在联系提取与每个元素相关联的强关联关系元素集合,并由集合中元素的相似性反映出待匹配元素的关联相似度;最后由数据实例相似度及关联相似度综合决定元素间的整体相似度。4)研究自适应模式匹配流程的构建方法。对于一个给定的模式匹配任务,该方法通过用户交互与自动抽取相结合的方式对输入模式信息进行深入挖掘,从中提取切实可用的辅助匹配信息及该信息所适用的模式匹配算法,然后在此基础上自适应构建和调整模式匹配流程,使匹配方法能够随应用场景的变化而变化,进一步增强模式匹配方法的适用性,充分发挥不同匹配算法所具有的优势。
其他文献
牙轮钻头轴承密封结构起到阻止钻井液进入轴承腔、防止润滑脂泄露的作用,但随着深井、超深井以及难钻地层的不断开发,因密封失效而导致钻头失效的比例增加,因此需要提升牙轮
发展是人类社会永恒的主题。绿色建筑是在人类面临全球生态破坏加速、自然灾害频发以及环境极速恶化、资源严重短缺、人口猛烈巨增、物种惨遭灭绝的生存危机的情势之下衍生出
随着第四代移动通信的高速发展,射频输入信号的包络带宽越来越宽,功率峰均比越来越大,导致采用恒压供电的基站功放效率越来越低。包络线跟踪(ET)技术是大幅提高功放效率的有
细茎石斛(Dendrobium moniliforme(L) Sw.)是石斛属命名的模式植物,主要分布于中国大陆、台湾、印度、日本和韩国,在东亚跨海间断分布,具有重要的药用以及观赏价值。鉴于该物
<正>儿时,曾偷饮父亲的酽沱茶,晚上辗转难眠。“茶乃醒神之物”,从那时便在脑子里留下印痕。父亲爱饮茶,我爱看父亲饮茶。茶是最便宜的沱茶,呈窝头状,压缩颇紧,须用手捶散,捡
会议
BT(Build-Transfer)即“建设-转让”模式,近年来广泛应用于基础设施建设领域。BT项目建设周期长、投资大、参与方多、组织关系复杂,实施过程面临不确定因素多,风险管理倍受关
随着科学技术日新月异的发展,以计算机网络和移动电信网络为代表的网络逐步实现融合,大大减少了实施传销犯罪在时间上和空间上的束缚,传统传销借助互联网演变成网络传销,在互
以方太研发大楼工程清水混凝土塑料模板-型钢龙骨体系施工为研究目标,通过现场样板施工,分析清水混凝土施工中可能发产生的问题,进行技术攻关。在该工程圆满完成次项工作,并
目的:研究甲状腺结节硬度对细针穿刺细胞学检查(FNAC)标本满意度的影响,从而指导FNAC术前计划拟定,提高FNAC标本的满意度。方法:本实验为回顾性研究,收集浙江大学医学院附属