面向不确定数据流的聚类算法分析

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kevin_0713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代计算机技术、通信技术及互联网技术的迅速发展,电子商务等领域正面临海量的流式数据。同时,由于数据产生的随机性和数据收集的不完全性,数据采集过程中产生了大量的不确定数据流。不确定数据流的聚类算法既要满足数据流的连续性、无限性和不可预知性,还要降低数据的不确定性造成的影响,还要避免异常数据对聚类结果的影响。因此,探索高效的不确定数据流聚类方法,成为当今数据挖掘中一个重要的研究课题。本文针对不确定数据流的特点对其聚类问题进行研究,采用基于密度和网格的聚类方法以及CluStream双层框架,给出了GDU-Stream算法和EGDU-Stream算法,解决不确定数据流的聚类问题和聚类时的异常数据问题。本文的主要工作概括如下:1.概述了数据聚类的几种常用方法,详细分析了基于密度和基于网格相结合进行聚类的优缺点;阐述了不确定数据流的数据模型及其聚类的特点和难点,当前比较成熟的聚类算法已经不能适应不确定数据流的聚类要求。2.分析了不确定数据对聚类产生的影响;设计了不确定数据流聚类算法中的概念模型;在CluStream双层框架的基础上,给出了基于密度和网格的不确定数据流聚类算法GDU-Stream,并通过仿真实验表明该算法的准确性和高效性。3.详细分析了基于密度和网格的方法处理异常数据的性能;针对不确定数据流中异常数据和聚类的关系问题,对GDU-Stream算法进行改进和扩展,给出了一种带有异常数据清除机制的EGDU-Stream算法,并通过仿真实验表明该算法既能够有效清除数据源中的异常数据,同时又能准确高效的完成数据聚类。
其他文献
目前,为了满足实时应用在高性能和低能耗等方面日益增长的需求,多核处理器已经被广泛地应用到现代实时系统中。近来,电压/频率岛(voltage and frequencyisland, VFI)模式作为一种有效的能耗管理技术,已被多核系统的设计所采用。在多核实时系统中,任务通常需要访问全局共享的资源(如共享的数据对象和I/O通道等),因此,任务的运行要考虑同步,以及由此产生的同步开销。现有的关于多核节
低密度奇偶校验码(Low-Density Parity-Check Codes)是一种基于图模型和迭代译码的纠错编码方法,因为其逼近香农容量限的性能和译码算法的低复杂度,逐渐成为人们的研究热点。随
本文是在传统P300行列闪烁实验范式的基础上进行改进,同时增加了一个主动心理任务。第一个实验中,主动心理任务实验是判别颜色,同时设计了对比实验即计数。为了进一步验证主
近些年来,我国的医疗卫生事业取得了长足的发展,但与此同时,医疗事故时有发生,由此引起的医疗纠纷给医院和患者带来了不必要的麻烦,影响了社会的和谐与稳定。而引发这些矛盾的主要
随着科学技术的发展,人们越来越容易得到同一个事物多个不同视图的数据,而传统的机器学习方法大多是在一个视图上进行的。为了利用不同视图之间的相关信息和互补信息,人们通
立体显示技术中关键核心问题即是立体合成问题,如何有效的将视频帧进行立体合成,是解决立体显示眩晕度的关键问题,基于此本文针对多视点虚拟场景的立体效果控制进行了一系列
随着焊接过程自动化和智能化的发展,焊接质量信息的提取越来越受到国内外学者们的关注。伴随着对视觉监控领域多年的研究与计算机视觉技术的发展,视觉传感技术现如今已成为焊接
现如今竞争日益激烈的知识经济时代,知识快速有效的获取成为了企业提高自己核心竞争力的关键所在。船舶行业的信息化也在飞速发展,为了使得船舶有着最好的运行状态,船舶行业对循
机会网络是一种不需要源节点和目的节点之间存在一条完整的链路,利用节点移动带来的相遇机会实现通信的自组织网络。机会网络中,节点的移动等原因导致网络间歇性连通甚至不连通
无线传感器网络由传感器节点组成,节点之间通过路由进行数据的传输。然而,传感器节点微小,易受资源约束,因此建立能量高效的路由协议显得十分必要。地理位置路由协议利用位置