非一致性数据管理研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:guyuehu11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息资源的曰益膨胀使得数据管理问题逐渐成为研究焦点。当前越来越多的数据库应用依赖于多个独立的数据源,对于给定的约束,这些数据源分别是一致的,但集成时就可能是不一致的。如何处理非一致性数据成为数据管理领域的一个挑战。本文总结了目前非一致性数据管理的研究现状,讨论了一致性查询应答的计算机制、一致性查询应答与聚集查询的计算复杂性以及其它可替代的候选数据库语义。 基于一阶逻辑和完整性约束,本文提出了非一致性数据管理框架,对多种合取查询类型对应的连接图及其连接的充分性进行了研究,分析了一致性查询应答的复杂性。针对大量实际的合取查询,给出了查询重写算法,重写查询是一致性识别语句与初始查询的合取。该算法首先判断是否为可重写查询,再基于连接图进行递归计算来构造一致性识别语句,然后与初始查询合取产生一个新的一阶重写查询,用于计算一致性结果。此外,本文分析了一阶查询应答在数据库的表达方式与三类空值中的存在型空值问题。 对于合取查询,本文基于非一致性数据管理框架提出了非一致性数据库的一致性查询应答策略。解决了基于三值逻辑的空值问题,给出了无聚集查询重写算法;基于一致性查询应答的范围语义,给出了无连接和有连接的聚集查询重写算法。在上述的查询重写算法中,改进了非一致性数据库原有的一致性查询应答算法,降低了查询重写负载。通过递归循环检测和非一致性检测,解决了自身连接查询的非一致性问题。此外,对符合完整性约束的元组添加约束标志,提高了重写查询的执行性能。 基于概率关系代数和聚类技术的相关理论与方法,对元组匹配技术所产生的聚类进行研究。提出了基于聚类的概率关系及其关系运算,扩展了以前关于概率数据库和一致性查询应答的语义,给出了元组概率计算方法。以此为基础,提出了基于聚类的概率关系的非一致性数据库查询重写算法。对于无聚集查询,提出了基本的查询重写方法;基于可信聚类的查询应答范围语义,给出了无连接和有连接的聚集查询重写算法。连接查询重写方法压缩了可信聚类中需要连接的中间结果集的元组数量,有效地提高了查询性能。 本文发展已有的数据生成方法,建立了一种海量数据生成框架,可灵活生成不同的数据模式以及多粒度非一致性数据。提供了自定义的函数和表达式,在数据序列的基础上进行迭代操作,并在数据序列迭代和RDBMS间建立联系,加入了数据非一致性程度控制机制,迭代模型解决了多个迭代节点有多个引用的问题。基于这种数据生成方法和给定的聚类数据生成方法,对CQA计算和基于聚类的查询策略进行了基于TPC-H数据模式的性能评价,实验显示尽管重写查询的负载比初始查询的负载更高,但性能仍然是可以接受的。
其他文献
全景图的自动生成技术是近年来兴起的基于图像的绘制技术中的重要研究内容,其涉及到计算机图形学、图像处理及计算几何等诸多学科。本文深入研究了全景图生成的三个步骤:图像采
英语是世界公用语言,英汉机器翻译的研究也有近50年的历史,但是译文质量仍未达到忠实通顺的要求。目前英汉机器翻译技术遭遇瓶颈,其研究攻关势在必行。 本文立足于自然语
人工免疫是当前计算智能领域的新兴研究热点。本课题以人工免疫系统为研究对象,探索具有可扩展性、具有一定通用性的人工免疫系统模型,采用人工免疫原理设计垃圾邮件过滤器模
XML 数字签名集安全性与灵活性于一体,实现了传统数字签名所不能实现的签名粒度,不仅可以保证信息的完整性,真实性和不可否认性,还可以提高数据的扩展性和互操作性。排列码加密算
三维视景仿真技术是虚拟现实技术的一个重要发展方向,它采用以计算机技术为核心的现代高科技生成逼真的视、听、触觉一体化的特定范围的虚拟环境,用户借助必要的设备以自然的方
数字水印技术作为一种信息隐藏手段,其基本思想是在图像、音频和视频等数字产品中嵌入秘密信息,以便保护数字产品的版权。目前,数字水印技术已经逐步发展,并广泛地应用于图像
本文在综合分析XML安全现有成果的基础上,将具有我们自主知识产权的排列码加密算法应用到XML安全领域。本文详细介绍了排列码加密算法原理,用Java语言实现了分组长度为8比特
隐蔽通道指操作系统和网络环境中客观存在的,且本意不是被设计用于传输信息的通信信道。隐蔽通道可被恶意攻击者利用,实现隐蔽的数据传输,危害系统安全。在智能手机操作系统A
随着多媒体数字信号处理应用领域的迅速发展,对计算机处理能力的要求越来越高。可重构处理系统将微处理器的灵活性和ASICs的高效性结合起来,通过配置可重构处理单元以满足不
分布式拒绝服务(Distributed Denial of Service,DDoS)攻击已经成为当今网络上广泛传播的问题。这种攻击行为使网站服务器充斥大量要求回复的信息,消耗网络带宽和系统资源,导致