基于时空划分的数据流聚类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:gogl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流是一种数据访问方式的形象化表述,数据源源不断到达主动触发系统处理,系统一般只能访问数据一次,处理过程中要考虑数据权重。数据可表示属于同类事物的个体,也可表示不同个体随时间变化的状态值,故数据流又可分为单流和多流模型。数据挖掘是发现隐藏在大量数据背后的信息,着眼于数据从总体上表现出来的特征:数据在空间中的分布状态、数据的不同维度在取值上的伴生或依存关系等。数据流处理的一次扫描、权重问题以及数据量的潜在无限性等约束增加了对流数据进行查询和挖掘处理的难度。   聚类依据数据间的相似性将数据集划分为多个不同的簇,本文研究多维数据单流模型的聚类问题。考虑算法的可并行处理和数据挖掘的统一理论框架、突出聚类在数据挖掘中的基础性地位,采用空间划分的思想生成保存数据分布状态的概要数据结构,概要结构本身即表现出粗糙的聚类特征。基于概要数据结构的挖掘,对其中的关键技术和算法进行研究和实现。   首先,基于应用驱动的研究思路,从广义的数据流概念和具体应用中抽取出四种不同的数据流模型,给出数据流的形式化表示和界定本文所研究的数据流模型;第二,采用时空划分的思想,用网格保存时间粒度内数据的分布状态,用倾斜时间框架动态地生成和组织不同时间段的网格概要数据结构,研究基于网格重组织和最小时间粒度调整的内存需求控制策略;第三,研究大粒度空间划分的可容忍性,引进统计信息以获取网格单元内部数据的分布特征,探索相对大粒度空间划分的可行性,实验仿真大粒度划分过程,直观地演示其有效性;最后,设计基于时空划分和统计信息的数据流聚类处理框架,实现概要结构生成算法,仿真模拟数据流聚类特征的演化过程,验证概要结构生成算法的去噪音效能,测试概要结构不同表示法的执行时间、内存使用量,实验结果与理论分析一致。
其他文献
网格是网络发展的必然产物,同时也是网络分布式并行计算的重要支撑平台。伴随着网格技术的进步和发展,网格用户对网格系统的服务质量(QoS)提出了更高的要求。由于网格中的资
学位
随着汽车电子嵌入式技术的迅速发展和广泛应用,汽车电子对嵌入式操作系统的需求也越来越紧迫。在我国,汽车电子嵌入式操作系统开发起步较晚,且技术难度较大,已经成为制约我国汽车
学位
随着Internet的迅速发展和不断普及,Web日志资源越来越多,而如何利用这些海量数据来更好的为用户服务成为当今的研究热题。Web日志挖掘把传统的数据挖掘技术应用到Web日志中,
随着办公自动化系统的广泛应用、原始数据的大量积累,使得很多高校开始关注于数据综合利用和管理问题,这些高校自身不具备较高程度的数据综合利用能力,而这些数据却又复杂的存在
随着嵌入式技术和虚拟仪器技术的不断融合,嵌入式虚拟仪器的应用日益广泛,研究一种高效的嵌入式虚拟仪器的开发方法就显得迫切而重要。可重构技术是指器件可以根据情况对自身
搜索引擎是人们检索互联网信息的一个重要工具。它由爬行器、索引器、查询器等3个部分组成。网页索引器是建立搜索引擎的一个关键组成部分,它负责对网页爬行器抓取下来的网页
人脸是人类日常情感表达和交流最重要、最直接的载体。人脸姿态估计是指根据单张人脸图像或从人脸图像序列确定头部在三维空间姿态角度的技术和方法。作为计算机视觉及人脸识
学位
模型驱动体系结构(MDA)是一种软件开发新方法,它以“模型”来驱动软件开发过程中的需求分析、设计、构造、部署、操作、维护及修改。他的主要目标是,提高系统的可移植性、互操作
互联网发展至今已有20年,现在从互联网上可获取的信息数据量已经非常庞大。为了在有限的时间和精力下最快地掌握最关注的信息,人们越来越依赖于计算机对相关信息的排序处理。排
目前,随着高功率的电力电子设备广泛应用于日常生活中,由电力电子设备对用电网络造成的谐波污染也愈发严重,对电网造成了严重危害。功率因数校正(Power Factor Correction)技术是抑制电力电子设备产生谐波污染最有效的措施,它被广泛应用于开关电源中,以减少电力电子设备对电网所产生的谐波污染,改善电能质量。一般情况下,功率因数校正技术在开关电源电路中的应用,不仅会降低开关电源的转换效率,而