基于数据流的聚类分析研究及应用

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:chairsszj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、事先未知的、潜在有用的信息或模式。它融合了数据库、人工智能、机器学习和统计学等多个领域的理论和技术,是数据库研究中的一个很有应用价值的新领域。而聚类分析是数据挖掘中很重要的分析手段。聚类,是按照给定的相似度定义将数据集合划分为若干个聚类簇,使得同簇的数据之间相似度较高而不同簇的数据之间相似度较低的过程。近年来,由于计算机及应用技术的高速发展,人们获取数据的能力得到极大的提高,数据流(Data Streams)作为一类重要的数据来源,受到越来越多的关注,基于数据流模型的管理系统及其算法已成为重要的应用前沿课题。数据流是一组顺序的、大量的、快速的、连续到达的数据序列。一般情况下,数据流可以被视为一个随时间延续而无限增长的动态数据集合,对流中数据的访问代价通常比较高,因此仅一次地访问数据成为数据流算法所追求的目标。数据流的特性对传统聚类方法提出了许多新的挑战,如:仅一次地扫描数据流并产生高质量的聚类结果,任意时间段内的窗口分析,等等。近些年来,数据流聚类算法逐渐开始向分层的算法框架发展。分层聚类算法通常将算法结构分为“在线层”和“离线层”两个部分:在线算法负责对流数据进行快速但较为粗糙的处理,通过保存概要数据信息而避免后续过程对数据的回溯访问;离线算法利用在线层保留下来的概要信息进行更高层次的精确分析,并最终得到聚类结果。当前,数据流聚类算法尚且面临着以下一些较难解决的问题:分割数据流造成全局信息缺损从而影响聚类效果、时间复杂度较高、难以实现有效的基于密度聚类从而发现数据空间中不规则分布的高密度区域,等等。本文针对数据流聚类算法进行了深入的研究,基于双层数据流聚类算法框架提出了若干方法用以解决或改善上述问题,主要包括以下几部分内容:1)数据流表达是在线层算法研究中的一个重要问题,直接影响到算法的处理方式及算法效率。传统的模型如:界标模型,滑动窗口模型和快照模型都属于基于数据压缩的表达方式,它们针对数据本身的数值进行计算处理,得到远远小于原始数据空间的映射空间,此模式不能很好的反映空间分布。本文提出的微簇结构能够通过记录数据的分布获取更多的信息,同时可以进一步降低算法的存储需求。通过保存数据本身使其在以后的处理中可以动态调整所属划分,从而更好地反映出空间分布的变化。2)在线算法向离线算法输出中间数据。本文初始完全划分和算法后来非完全划分相结合的策略,因为局部空间中的高密度区域通常也对应着全局空间中的密集区域的原则,于是把局部空间中的高密度区域进行输出,而将其他的稀疏数据留在内存中与后续数据一起处理。故初始的完全划分的簇最后密度高的话就输出,而密度低的就分割与后续数据一起处理。这种划分策略能够提高在线层的输出质量,进而得到更好的聚类结果。3)提出一种改进的双层流数据聚类算法SCluStream,距类结果能够较真实的反映出数据的空间分布。在对数据流进行初步聚类的同时,尽量保留数据的分布特征,对流数据的动态特性表现出更强的适应性。实验结果表明,算法能够保持较低的时间开销并得到质量较高的聚类结果。4)本文提出了一种新算法DenCluStream用于挖掘数据流中具有任意形状的簇.我们把密度函数以权值的形式引入数据结构中,并利用核心微簇描述数据流中任意形状的簇,并提出候选核心微簇和孤立微簇结构分别用于维护并区分数据流中潜在的核心簇和孤立点。在线层输出的结果在离线层用“多维球簇”进行保存,节省了外存空间。另外,本文初步探讨了聚类分析算法的应用,分析目前聚类分析算法应用的现状,展望应用前景,为以后研究做基础。
其他文献
随着因特网和电子商务的推广,信息交换的安全性日益重要。保证信息安全的最方便的办法是密码学。经典密码学分为公钥密码和私钥密码两大体系。私钥密码长期存在如何在通信双方
语音识别技术目前在嵌入式系统中的应用主要为基于小词汇量的孤立词语音识别。语音命令控制,广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。人们期待着连续
聚类分析是数据挖掘领域一项重要的研究课题。近年来,数据流在很多领域得到应用,数据流聚类也成为了一项意义深远而且很有挑战性的技术。与传统的静态数掘相比,这些数据是高
逆向工程是目前CAD/CAM领域内的研究热点之一,而数据分块是逆向工程技术中的关键环节和难点问题。数据分块是指曲面重构中按点云分布形状特征对点云数据进行区域分割的基础过程
PSO是一种基于群体智能的随机启发式优化算法,作为群体智能的典型代表,它具有原理简单、参数少、收敛速度较快等特点,并且算法程序实现简单,已被证明是一种行之有效的全局优
本文分别对电力通信网MPLS网络和变电站IEC61850网络进行研究。论文针对Linux内核中的流量控制机制进行分析,结合区分服务模型,通过分析区分服务(DiffServ)模型的体系结构,研
MUD的全称为Multiple User Dimension(多用户层面),即由计算机程序实现的多用户参与活动和交互的环境。也有人称之为Multiple User Domain(多用户虚拟空间游戏),因为就目前来
面向人的视频理解尤其是对人脸进行分析,是计算机视觉技术研究中的一个热点与难点。对于视频监控系统来说,大多数应用情况下主要的监控目标是人。因此面向人、尤其是人脸的视
以石化、钢铁、化工、冶金等为代表的流程工业是我国国民经济极为重要的基础支柱产业。然而,我国流程工业不同程度地存在着能耗高,成本高,劳动生产率低,资源利用率低的特点,能耗普
为简化发动机功率检测过程,提高无负荷测功的准确性和可靠性,针对目前常用的发动机无负荷测功技术和方法中所存在的问题和不足,本文分析了发动机无负荷功率检测的方法和影响