数据流混合属性聚类算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:bbanb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类法在数据挖掘中具有很高的地位,但是很多传统方法只能对固定的数据集进行处理。随着技术的发展,许多领域,如互联网中的数据传输、通信网络中的通话数据、网站访问日志等,每时每刻都在产生大量的数据。这些数据是海量、无界、不定速度的流式数据。因此,研究流式数据环境下的聚类问题是有重大意义的。目前,混合属性流式数据越来越多,但是针对混合属性数据流的聚类研究还比较少,也未发现关于混合属性数据流聚类过程的具体说明,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类方法上还有很大的改进之处。针对以上问题,本文做了四点内容:1、对数据流挖掘的基本概念和相似性度量方法、数据流基础聚类进行了介绍,又总结了处理数据流的相关技术,为下文的研究提供了依据。2、结合数据流环境的特点和数据流中数据分布的密度变化,提出了基于微簇优化的三层数据流聚类框架,并详细说明了该三层框架的具体意义;对传统的k近邻进行了分析和总结,然后提出了基于最优2k近邻的数据流聚类算法,该算法通过分析近邻中数据的分布,可以自适应地调节微簇半径。3、由于还未发现混合属性数据流聚类过程的具体说明,本文通过研究给出了混合属性数据流环境下的三步聚类的思想;然后,针对传统k近邻不适应混合属性数据流的问题,提出了二重k近邻的概念,并结合改进的维度距离进行在线微聚类。4、改进了以往算法所采用的使用余弦公式判断混合属性数据流中数据对象的相似性方法,即提出了基于均值的余弦模型,并在实际数据集和人工数据集中进行了运用,所得到的聚类质量更符合实际数据集中的情况。
其他文献
粗糙集理论是能有效地分析不一致、不精确和不完整等各种信息的一种数学工具,目前广泛应用于人工智能、模式识别和知识发现等方面,其研究的核心内容是属性约简。属性约简是在保
基于视觉的运动人体检测与行为识别涉及图像处理、模式识别的核心问题,在安全和军事等领域有广泛前景。因此在固定单摄像机下,研究运动目标检测与跟踪获取单人姿态序列,构造时空
随着PC机上很多新颖的3D应用被移植到移动设备上,而移动设备是电池供电的,因此其能量消耗已经成为一个迫切需要解决的问题。目前存在两种体系架构:传统的CPU架构和比较流行的C
生活中嵌入式系统的应用无处不在,从通信、消费电子产品到汽车电子、智能机器、工业控制和卫星导航,其使用数量已经大大超过了通用计算机,嵌入式设备以其低功耗、可靠性高、
虚拟现实技术和互联网的发展,以及人们对旅游需求的不断增加,使得作为新兴模式的虚拟旅游得到了世界范围内的青睐。对虚拟景区漫游系统的开发研究已经成为虚拟现实领域的热点。
常识推理中的信息常常具有不一致性、不完全性和不确定性。这样的信息不能看作绝对真理,而只能称为信念。对不一致信念的处理是人工智能特别是计算机推理研究中一个关键性的
随着网络技术的迅速发展,Web应用日益广泛,其自身安全也面临着越来越多的威胁。SQL注入漏洞攻击是针对Web系统最为常见、危害最大的一种网络攻击,主要通过寻找系统漏洞对后台
随着社会经济的发展,汽车的数量呈显著增长的趋势,一方面给道路交通带来了巨大的负载压力,另一方面,由于汽车的违章行驶行为得不到及时有效的遏制,对人们的日常生活产生安全
随着信息技术的发展,海量数据库迅速增加,然而对其进行有效分析处理技术的缺乏,促使数据库中知识发现(Knowledge Discovery in Databases,简称KDD)技术的应运而生。数据挖掘(Data
近年来,软件定义网络(SDN)的理念快速兴起,同时兴起的还有SDN网络最有影响力的协议之一OpenFlow。SDN能够解决传统网络中网络结构复杂、网络管理复杂、新业务部署缓慢、厂商