模糊、动态多维数据建模理论与方法研究

被引量 : 0次 | 上传用户:heying423
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多维数据模型的研究为数据仓库技术与OLAP技术的广泛使用提供了基础支撑,具有重要的理论与实践价值。在多维数据模型中,维是一个非常重要的概念,由于其具有一定的层次结构,允许人们用不同的粒度对所关心的事实进行分析。现有的多维数据模型中,维的层次结构建立在完全划分的基础上,具有层次清晰、结构稳定的特性。但现实世界中,描述客观事物的信息往往是不确定、模糊的,而且客观事物本身又是动态演变的,从而难以基于静态的、界线分明的完全划分建立那种层次清晰、结构稳定的分析维模型。为此,本论文以模糊、动态条件下多维数据建模为研究目的,提出支持模糊维的多维数据模型和基于聚类的模糊维构建方法;提出连续数据流的多层次滑窗模型,设计连续数据流的在线聚集算法;提出数据流动态多维数据模型及其在线多维聚集方法。论文的主要工作和创新体现为以下四点:1.基于模糊商空间理论,提出了模糊多维数据模型通过引入模糊等价关系,提出了一种支持非完全划分的模糊维结构模型。与普通维相比,本文提出的模糊维主要在两个方面进行了扩展:一是扩展了两个维级别间的元素聚集关系?λ,支持依λ参数的元素聚集操作;二是在级别内部建立了元素聚集关系λ,支持级别内分层递阶结构上的元素聚集操作。而且这种扩展具有兼容性,即普通维可以作为模糊维的一个特例。在模糊维的基础上,论文给出了模糊多维数据模型、模糊数据立方体、聚集操作,以及上钻、下钻、选择、投影、切片和切块等基本OLAP分析操作的形式化描述。采用模糊粒度计算理论与方法对模糊聚集问题进行了深入的分析,提出了三种处理方法:保守法、乐观法和元素导出集法。与有关多维数据模型相比,本文提出的模糊多维数据模型突破了传统多维数据建模理论的局限,对非确定性、模糊多维数据分析问题,具有较强的描述与建模能力。2.提出了基于聚类的模糊维构建方法针对模糊等价关系难以确定的实际问题,论文根据对象集合的规模大小,分别提出了基于模糊聚类的模糊维构建方法和基于相对密度聚类的模糊维构建方法;同时,提出了基于相对密度的聚类算法,该算法能在不同参数下得到比较稳定的聚类结果,即聚类结果对参数设置不过于敏感,而且高密度的类簇能从相连的低密度的类簇中识别出来,从而可得到多密度分辨率的聚类结果。3.提出了数据流多层次窗口模型和在线聚集算法在数据流处理过程中,一般对最近时段的信息要求比较详细,而对较远时段的信息往往只需概貌。为此,论文提出了一种多层次时间窗口模型,能支持在不同时段对数据流进行不同时间粒度的建模;设计了多粒度聚集树结构和过期数据的金字塔快照存储结构;提出了数据流在线聚集与近似查询算法,通过性能分析可知,无论在存储空间还是处理时间上都能满足数据流在线聚集与查询分析的苛刻要求,从而有效地解决了有限时空条件下的数据流聚集与查询问题。4.提出了数据流动态多维数据模型及其在线多维聚集方法基于多层次时间窗口模型的时间维模式,提出了数据流动态多维数据模型。与一般数据仓库的多维数据模型相比,数据流动态多维数据模型的突出优点在于能支持时间维的跨度无限性和数据集的动态变化性。数据流时间维的跨度无限性决定了任何存储系统都难以保存整个时间域的所有数据粒子,因此,多层次时间窗口模型是数据流时间维建模的必然选择;而数据集变化的快速性和持续性决定了数据流多维数据模型应支持在线的多维聚集。由于数据流观测属性的表征性、细节性和技术性等特征,使得数据流多维联机分析处理中的维度选择与构建十分困难。论文提出了支持数据流维度动态建模的在线聚类算法;设计了支持数据流在线聚类与多维聚集的数据结构;提出了数据流基本单元的在线聚集物化方法。论文在模糊、动态多维数据建模理论和方法方面的研究,对于促进数据仓库技术、OLAP技术和数据挖掘技术的紧密集成和广泛应用具有一定的理论和实践意义。
其他文献
英语听力作为一项基本的语言技能是交流的基础和前提。在教学实验中,将语块作为语言学习和使用的最小单位引入非英语专业学生的听力教学,发现语块数量比单词量更能影响学生的
知识经济时代企业的竞争环境发生了巨大的变化,在企业的诸多生产要素中知识的作用逐渐超过了其它要素的作用,而成为社会和经济发展的关键因素,成为企业获得利润的主要工具和手段
从社会视角研究外语学习是语言学的一个重要领域,近年来越来越受到国内外学者的关注。随着社会生活信息化和经济全球化的出现,英语作为信息载体的重要性日益突出。在中国目前
任何教育过程都涉及知识、技能、态度、情感等方面的因素,即都涉及“教什么”的问题。从这个意义上说,课程问题是教育上的一个永恒课题,课程教材建设是学校教育乃至整个教育事业
进入21世纪,伴随我国“中部崛起”战略的提出,宜昌市猇亭区面临着前所未有的发展机遇,工业新区的定位使得猇亭区成为全国知名的以化工企业为代表的工业园区,位处城市边缘区的便利
五四运动时期,李大钊和胡汉民对马克思主义的研究均已具备了当时的最高水平,但二者在研究角度、阶级立场、宣传方法上都存在着重大差异。这种差异实际上反映了当时的知识分子
护理是一门为人类健康服务的应用科学,护理教育强调理论与实践的结合,教学任务约有50%是在教学医院完成的。在教学医院承担临床护理教学的临床护理人员即为临床护理教师,他们
城市核心竞争力理论缺乏系统的理论体系,其理论构建必须建立在有关企业竞争力、产业竞争力、区域竞争力、国家竞争力等成熟理论之上,其理论基础主要有:企业"核心竞争力"理论
汽车内流场的研究是汽车空气动力学的一个崭新的领域。随着汽车工业的快速发展,人们对车内舒适性的要求也越来越高,而车内空气流场和温度场分布对人体舒适性影响很大。另外,
当今,中国正处在一个重要的社会经济转型时期,旧的计划经济体制已被打破,新的市场经济体制尚未完全形成,两种体制并存,两种矛盾对立的状况使得宏观调控的难度增加,各种市场主体有了