面向概率数据流的聚类技术研究

被引量 : 0次 | 上传用户:ph103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
许多应用场合会动态实时地产生大量数据,如电子商务网站中的点击流,传感器网络和RFID中的实时读数,称这种数据为数据流。由于受到物理设备精度的限制,网络带宽和能量等的影响,这类数据往往具有不确定性,称这类数据流为不确定数据流或概率数据流。概率数据流具有以下特点:(1)数据量巨大,长度无限;(2)实时性强;(3)只能对数据流中的每个数据进行单遍扫描处理,无法保存全部数据进行反复读取;(4)数据流中的每个数据或数据的属性有误差或不确定性。如何对概率流数据进行分析和挖掘处理是一项具有极大挑战性的任务,利用传统的数据挖掘算法往往得不到正确的结果。本文主要研究概率数据流的聚类技术,研究工作主要包括以下几方面:1、分析了概率数据流模型,为后期的概率数据流聚类算法提供了基础。2、针对聚类对象为概率数据流本身,本文提出了一种基于小波概要的并行不确定数据流的聚类算法,简称U-HWT-kmeans。U-HWT-kmeans算法利用离散小波变换并考虑元组不确定性得到概率数据流的小波概要结构,采用期望距离度量流间的距离。3、针对聚类对象为概率数据流内的数据,本文提出了一种基于密度的概率数据流的聚类算法Pdenstream,以发现任意形状的簇。该算法应用了一种称为概率核心簇的“密集”微簇来捕捉概率数据流中的任意形状,并进一步设计了概率密集簇和候选概率密集簇,用于维护和保存数据流中数据分布的密度信息。4、在第3项内容基础上,本文提出了一种滑动窗口下基于密度的概率数据流的聚类算法PWdenstream,以获取当前数据流的特征。该算法将Pdenstream算法扩展到滑动窗口下,将概率核心簇,概率密集簇和候选概率密集簇以聚类特征指数直方图的形式存储,并以指数直方图技术维护其聚类特征,从而实现滑动窗口下的概率数据流聚类。本文提出的算法是对现有概率数据流的聚类技术的有益补充和改进。理论分析和实验表明本文提出的算法能够有效地解决相应问题,与现有概率数据流聚类算法相比,本文提出的算法在聚类空间开销、聚类速度以及聚类结果准确性上具有一定的优势。
其他文献
上海市安亭新镇共同沟全长约 5 780m ,该工程分两阶段实施 ,第一阶段工程将于 2 0 0 4年 3月全面建成。介绍了共同沟纳入的管线种类、系统方案、共同沟标准断面、沟内防火分
目前煤矿用全液压钻机一般为动力头式钻机,在进行大角度钻孔时当动力头处于停止给进状态时,动力头会由于重力作用而突然下滑,易造成机件损坏或操作人员受伤的事故,因此在进行
花卉育种是花卉业发展的基础。不断成熟的基因工程技术解决了传统育种工作中不能突破的问题 ,其优点在于可有目的地改变花卉的某一性状而不影响其它性状 ,并缩短育种周期 ,为
随着形势的发展变化,执行多样化军事任务已经成为当前部队的重要职能使命,舟桥部队作为一支专业化的保障力量,在其中担任着执行抗洪抢险任务的职能,各军区,省军区的舟桥部队均被编
近年来,随着我国经济的不断发展和资本市场的日益完善,我国风险投资业得到了迅猛的发展。2009年深圳创业板的推出,为风险投资的退出开辟了一个新的通道。2009年以来,通过创业板实
我国现今正处于社会的转型期间,此时期内必会呈现犯罪高发之势,近年来未成年犯罪率维持在较高水平,并且近年呈现出未成年人犯罪者刑罚执行完毕后的再犯罪率逐步上升的趋势。故而
“以创补失”论是许渊冲先生提出的诸多重要的翻译理论之一,体现了许教授在翻译过程中主张的“创新”精神。“以创补失”是这种“创新”精神在翻译当中的具体应用。许先生认为
民族区域自治制度是指在国家统一领导下,各少数民族聚居的地方实行区域自治,设立自治机关,行使自治权。经过历史和实践的考验证明,民族区域自治制度是适合解决我国民族问题的基本
目前,钴酸锂仍然是锂离子电池的主流正极材料,但是钴价格昂贵、有毒性,并且其性能存在缺陷,研发者一直致力于寻找其它替代材料。层状镍钴锰酸锂复合正极材料具有良好的循环性能、
电力需求持续增长,化石能源日益枯竭,能源危机和环境污染问题十分严重,世界各国电力工业面临着严峻的挑战,源于分布式发电的微电网应运而生。微电网灵活的运行方式与高质量的供电