异构Web数据库集成查询接口模式匹配问题的研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:k5105320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术,特别是Internet的迅速发展,可共享的资源越来越多,各种Web数据库中已经存放了涵盖各个领域的大量有价值的信息,成为人们获取信息的主要渠道。然而由于Web数据库所独有的空间复杂性导致了其数据源的极端多样性,这也使得Web数据库的表达形式之间存在巨大的差异,描述同一事物的数据却表现出了明显的异构特征。如何快速、准确、低成本地将各种描述同一事物的异构Web数据集成到同一个关系数据库中是很有意义的研究课题,它可以为用户提供访问数据的统一接口,实现异构形式对用户的透明。   传统的异构Web数据库集成方式采用Mediator-Wrapper框架模式,使用XQuery作为公共的查询语言,系统的所有功能都建立在全局数据的XML/元数据表达上。本文针对Web数据库的信息量大且更新速度快的特点,结合经典的决策树分类方法对海量含噪的异构Web数据库集成中的查询接口匹配问题展开研究。主要工作如下:   1.综述并分析了现有异构Web数据库集成框架Mediator-Wrapper的基本理论体系及当前主要的查询接口模式匹配方法。   2.系统总结了传统的决策树模型的基本理论,并分析了其经典算法及优化策略。   3.针对异构Web数据中含噪较多的特征,结合已有的决策分类算法,给出一种基于可疑实例影响度分析的混合决策树学习算法MDSⅡ,通过采用信息增益率函数选择分裂属性,分析可疑Web数据全局影响度,判定匹配模式,可以在很好地提高模式的匹配精度的同时解决Mediator-Wrapper框架对XML/元数据表达的过度依赖问题,大大提高了模型的抗噪性。   4.针对传统模式匹配方法在处理海量数据时存在的建模速度慢、过度依赖领域知识、分类规则过拟合现象严重等缺陷,提出一种基于当前节点中最大纯度差(PDN)变化趋势的自主数据集成分类算法PDN_trends,通过对数据自身的跟踪和观察计算来判定决策树的预剪枝时机,不依赖领域知识使得数据集成分类更加自主,同时减小模型规模使得分类规则更具可理解性,同时在保证一定分类精度的基础上提高了建树效率。   5.基于上述研究,实现了异构Web数据库模式匹配规则生成系统,通过大量多样的数据库实验说明了所提出的关于异构Web数据库集成中的查询接口模式匹配方法的正确性和有效性。
其他文献
情感分析,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。随着互联网上主观性评论文本的增多,情感分析的应用需求也逐渐增多,同时也为自然语言处理的研究提出
近几年来,随着社会经济的发展和全面对外开放,我国的高等教育事业得到了蓬勃发展,主要表现为办学规模不断扩大、学生人数不断增多,并普遍出现了多校区办学的特点。这样一种发
三维人脸表情研究是计算机辅助设计研究领域、图形学研究领域和计算机视觉研究领域的重点研究内容。该研究对人脸识别、计算机影视动画制作以及人机交互的发展均起着重要的作
网络编码概念是在2000年提出的,通过网络编码可以获得组播的最大容量。网络编码改变了传统的“存储-转发”模式,取而代之的是“存储-编码-转发”的方式,在提高吞吐量、改善负
社会标注系统是一个为网站用户提供标签标注功能的应用系统。随着Web2.0的兴起,以社会标注机制作为主要功能的内容共享系统发展迅速,其中的典型应用比如共享网页的Delicious
最近几年,随着经济的发展,科学技术的进步,计算机视觉技术和多媒体处理技术得到了迅猛的发展,目标检测与跟踪技术的研究成为了计算机视觉领域的两个重要课题,是更高层次视觉
利用OpenAPI,将Inernet上的碎片化数据混搭在一起构建新型的应用,已成为当前Web应用开发中的一种潮流和趋势。然而,开发人员在搭建Mashup应用时面临诸多困难和挑战。本文旨在
智能视频监控领域的行人流量统计技术是指采用基于计算机视觉的方法统计某一时间段内出入某个通道的行人流量。因其高度的适应性和非侵入性,该技术可以自然融入到已广泛使用的
在石油勘探和开发过程中,为了评价储层的好坏,需对井下取得的储层岩石样品进行孔隙结构分析,其中储层结构分析所需的主要参数是由毛管压力曲线确定的。所以,岩石毛管压力曲线
在网络信息时代,随着通信技术的不断发展,即时通信得到了广泛应用,产生了巨大的短消息数据,短消息数据中蕴藏了大量有用信息资源,如何对短消息数据进行采集、存储、分析和挖掘,对于