基于可变滑动窗口的不确定数据流聚类方法研究

来源 :安徽理工大学 | 被引量 : 3次 | 上传用户:noegen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不确定数据流聚类技术是一种用于发现不确定数据流中数据项分布信息的方法,可以实时地帮助用户在海量的数据中发掘有价值的信息。不确定数据流聚类技术的根本目的是提高聚类结果的质量、过滤噪声及过期信息并降低时空资源的消耗。为了能用较少的资源消耗获得高精度的聚类结果,本文对传统滑动窗口技术进行了改进,并在此基础上给出了基于可变滑动窗口技术的聚类算法,主要研究内容如下:(1)改进了传统的可变滑动窗口技术。针对传统可变滑动窗口技术中,窗口大小设置不灵活的问题,本文设置窗口大小可随着数据流速度的变化动态调节,并将窗口大小均匀划分为大小相等的子窗口,定义为元窗口,以元窗口为缓冲数据的基本单元。通过动态设置概率阈值,可在聚类的同时为最近元窗口内数据项分类,将低概率数据直接纳入离群点缓冲区,降低资源消耗。同时还定义了数据流速变化幅度和变化频度两个概念,合理地选择两种窗口调节算法,适应数据流的演化情况。(2)给出了基于可变滑动窗口技术的不确定数据流聚类算法。通过结合改进后的滑动窗口技术,文章给出了一种新的不确定聚类算法VSWC,将聚类过程模块化,使聚类过程更加清晰,并定义了新的不确定数据聚类特征SWUCF,能更全面地描述微簇特征。首先,算法在初始化阶段,设计了新的初始微簇生成方法;其次,在最优簇寻找阶段,综合考虑了最大半径、最小数据项个数及最大概率密度增量三种因素来选择最优簇;然后,使用使用金字塔时间框架存储微簇快照,并改进衰减函数来淘汰过期数据;最后,使用微簇的不确定密度对k均值算法进行改进,响应用户请求。(3)设置实验对算法的效用进行了评估。通过使用KDDCUP99数据集和人工数据集,在多种数据流环境下设置多组实验,对VSWC算法的效用进行评估。实验表明,本文算法在聚类纯度、距离平方和、时间和内存消耗方面与Umicro算法及Emicro算法对比有一定优势,在数据流流速变化幅度和频度较大情况下效果更加明显。图[24]表[5]参[52]
其他文献
针对园林废弃物处理难的问题,设计了滚筒发酵实验设备,通过强制曝气通风方式以及螺旋型抄板设计,使设备内物料均匀发酵。实验表明,滚筒发酵实验设备的好氧发酵效果良好,最佳
用合金化的Ag-Cu-Ti粉及SiC粉组成的混合粉末钎料,真空无压钎焊SiC陶瓷和Ti合金.研究结果表明,在Ag-Cu-Ti粉末钎料中加入15vol%~30vol%SiC粉末能明显降低接头热应力,获得完整
用传统的高温熔融法熔制了一系列掺Er硅酸盐玻璃,并测试了这些样品经5 kGyγ射线辐照前后紫外至近红外的吸收和荧光光谱.实验结果表明,辐致暗化效应使得玻璃材料中形成了大量
报道了一种新的可用蓝光发光二极管(LED)有效激发的黄色发光玻璃.这种超宽带黄色荧光玻璃样品是在低硅钙铝酸盐玻璃基质中掺杂Ce~(3+),并采用熔融法制备的.通过对吸收光谱、
目的总结分析肺移植术后患者赛多孢子菌感染的临床特点、诊治和预后,提高临床诊治水平。方法回顾性分析广州医科大学附属第一医院呼吸与危重症医学科收治的1例肺移植术后赛多
作为在Tom易趣网做个性玩具零售生意的店主,李先生正在为开拓新的营销渠道犯难。和传统零售商不同,纯粹的网络零售商没有实体店,李先生通过几年时问把卖家信用积累到“超级卖家
采用改进的化学气相沉积法和气相液相混合掺杂技术制备大芯径掺镱石英光纤预制棒,以此作为有源纤芯制备了纤芯直径约90μm的掺镱双包层光子晶体光纤,纤芯组分为镱铝磷共掺.双
虽然教育部在中等职业教育的培养目标中就提出了“综合职业能力”这个概念,且各类职业学校对如何培养学生综合职业能力也做了一些探索,但由于综合职业能力培养毕竟是近几年世界
以诱变耐低温果酒酵母菌种YU2.28和产香酵母S15.3为发酵菌株,进行了葡萄酒发酵条件优化的试验研究.探讨了菌种生长温度、通氧量等因素,通过对菌种的生长情况和发酵醪液中总酯
本文利用贫困地区的农户调查资料估计了农户的农业生产函数 ,并在此基础上根据  劳动的边际生产率估算了家庭成员的影子工资率和影子收入。由于贫困地区劳动力市场  的不