基于粗集的关系型联机分析优化技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yun3531
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字时代的到来,企业积累的数据呈爆炸式增长,在海量数据上的分析决策已成为当前数据库领域的一大难题;而与此同时,分布式计算的飞速发展则为解决这一难题带来了机遇和新的挑战。构建一个具有分布式特征的关系型数据仓库,并辅之以高效的联机分析优化手段,成为依托已有成熟技术解决这一难题的首选。多维作为联机分析中最本质的特征,在关系型数据仓库中以视图的形式体现,因此在满足一定数据实时性的前提下,高效地维护视图成为关系型联机分析优化的最根本任务。基于这一应用背景,在自主研制的企业加速引擎基础上集成了联机分析处理功能,构建了一个关系型的分布式数据仓库系统DMWS。利用四层架构达到了DMWS的高可扩展性,借助粗集的相对不可辨识聚类在自治站点上实现了数据粒度可控的事实垂直分区,基于粗集约简的分层视图更新有效地提高了大规模负载下DMWS更新视图的效率。提出了一种基于层次外关键字引用搜索加选择率度量的负载水平分布方法。该方法首先基于广度优先搜索一组查询和更新代价较高且存在单向外关键字传递引用的单亲关系构成联合集;然后依据查询选择率水平传递划分联合集;最后基于DMWS的四层仓库架构,采用round-robin方法均匀分布联合水平分区。利用分布于数据源和自治站点上的触发系统,DMWS能够保证仓库视图的强一致性更新;通过将联合集水平分布于自治站点,该方法实现了自治站点对更新负载的有效分摊,因而大大增强了DMWS的可扩展性;在此基础上,依据选择率划分水平分区,使得联合集的元组具有站点凝聚特性,且凝聚优先考虑与高代价视图相关的更新数据。为有效支持关系型联机分析优化,通过粒计算描述粗集理论及其相关扩展,并提出三种与知识发现相关的粗集扩展新方法。基于概率思想的两层近似方法通过阀值控制对象集的近似边界以线性比率变化,有效提高了知识获取的容错性;基于相对不可辨识类的偏序结构利用邻域对象建立特征集,有利于解决非三角距离的对象聚类问题;在这两种粒化扩展方法之上,既约特征集有力地揭示了特征集内部的层次关系,为特征集的分层类化提供了一条极具启发意义的途径。在联合水平分布前提下,提出了一种针对自治站点上事实关系的时态垂直分区划分方法。利用对每个查询样本的分解,该方法首先将事实关系划分为一个由阻塞算子界定的属性访问特征集;然后基于全部查询样本下的特征集构建一个聚类模型。为求解这个对象距离不满足三角不等式的聚类模型,在粗集不可辨识关系的基础上,基于偏序结构迭代收敛的特性,构造了一个粒度可控的聚类求解模型。面向复杂多样的查询时,基于查询分解构造聚类模型并依据有效性函数选取候选聚类,可以有效克服传统事务划分方法分区粒度过小的缺点,因此该方法能够更加有效地发掘联机分析查询访问事实关系属性的时态局部性。关系型联机分析中查询的复杂性和多样性增加了视图维护的难度,同时也为发掘视图依赖提供了必要条件。针对多连接视图提出了一种基于辅助视图的粗分层增量维护方法。依据局部更新负载在集成器上合并的时机,弱局部合并和强局部合并对集成器负载的影响被放到DMWS环境下分别加以分析。由于强局部合并下全局查询的主要负载集中在各自治查询上,因而通过选择下推,SPJ视图被转换为自治站点间的多连接视图进行优化。在此基础上,首先基于查询视图两两之间的共享关系构造辅助视图的候选空间;然后将查询视图和中间视图分别作为对象集和特征集,利用粗集约简构造一个中间视图候选集的层次生成方法,并证明了各层中任意候选集内的视图相互独立且高层单向依赖于低层视图集;最后在层内选取有效代价最低者作为待选视图集,并淘汰待选视图集中造成联合代价增加的视图。具有独立和依赖特性的待选视图集改进了已有估算选取方法局部考量跨度小的不足,基于有效代价确定待选视图集显著减少了估算时间复杂度。除了能够有效支持垂直分区求解和分层视图选取外,基于粗集的相关求解思路同样适用于其他具有类聚或层次特征的关系型联机分析优化问题。
其他文献
计算机支持协同工作(CSCW)目标是在计算机支持的环境中,一个群体协同工作完成一项共同的任务。现有的网络基础设施为大多数的CSCW用户提供通信保障。自组网(Ad Hoc Networks)是一
针对冲击片雷管高压放电试验存在偶发高压放电不完全、有触电安全隐患的现象,采用了高压门控联锁报警的设计方法来有效解决这一问题;并在此报警系统中引入了红外探测和语音提
职业倦怠现象会严重危害教师的身心健康,影响教学效果,而且对学生的健康成长以及学校的发展产生较大的负面影响。本文对高等职业院校青年英语教师职业倦怠的成因以及对策进行
语言的性别差异自上世纪七十年代以来,一直是社会语言学家们关注的焦点和研究的课题,从最初的描述性记录,到后来的根源性研究,无一不渗透着语言学家们对这一语言社会问题的学
迭代编译是近年来针对高性能体系结构程序性能优化领域的一个新的研究热点。它挖掘各种变换的参数序列,生成程序的很多版本,并通过在目标平台上执行程序来选择具有最大性能加
目前,随着互联网和多媒体技术的发展,越来越多的数字多媒体内容通过在线服务更加便利的传播和发布,人们也可以很容易的获取并发布与原始多媒体数据内容完全相同的复制拷贝版
3D效果图是建筑装饰设计方案的重要组成部分,明确3D效果图的制作要求,掌握科学的制作方法是十分必要的,本文详细阐述了效果图制作应该符合的要求及科学的管理方法。
遗留系统是指多年前开发并投入使用,但至今仍然对其用户的业务具有重要意义的系统。由于技术陈旧、系统结构混乱、文档缺失等多种原因,遗留系统的维护成本日益高涨,面对遗留
<正> 把珠算纳入中、小学基础教育中的数学教学中去,与算术、几何三者结合是教育改革的内容之一。实施这项改革是利及子孙万代的神圣事业,这是我们珠算人的共同心愿。珠协的
<正> 穴位乃是身体上施行针灸的特定部位,简称为“穴”。它可“通经脉,均气血,蠲邪扶正”,是“处百病,调虚实”等的刺激点。也就是用于治疗疾病和增进健康的刺激点。同时它也