数据流聚类算法研究

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:chhy6266746
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的快速发展,在很多新兴的研究领域中存在着大量按照时间序列以流的形式有序产生的数据,如网络监控、入侵检测、情报分析、金融服务、股票交易、电子商务、电信、环境资源监控、Web页面访问和科学研究等。这些数据的存在形式与传统数据不同,它们是海量的、时序的、快速变化的和潜在无限的,通常具有以上特征的数据形态称为数据流。根据数据流自身的特性,在设计聚类算法时需要充分考虑到高实时性、增量式处理数据等需求。另外,由于数据流中的数据大多是高维的,并带有混合属性,因此,设计能够处理高维混合属性数据的数据流聚类算法是非常有价值的。目前为止,学术界已经对高维数据流聚类问题进行了不少有价值的研究工作,但是还存在许多问题尚待解决。本文在研究高维数据相似性度量方法的基础上,主要做了以下几个方面的研究工作:1、提出了一种高维数据的相似性度量方法。当低维空间中的相似性度量方法应用于高维空间时,由于高维数据存在着稀疏性和空空间现象,高维数据对象之间距离的对比性不复存在。通过对传统的距离或相似性度量方法在高维空间中的不适应性进行分析和总结。在基于维度的思想上,将特征选择技术运用到相似性度量方法中,提出了一种新的度量高维数据的相似性的方法。通过数值仿真实验,论证了其在高维数据聚类中的合理性和有效性。2、提出了一种处理高维混合属性数据流聚类算法。为了克服高维数据流聚类框架HPStream算法不能处理混合属性数据的缺陷,设计了一种度量高维混合属性数据相似性的方法,并将其成功的应用在HPStream算法上,提出处理高维混合属性数据流的聚类算法M-HPStream。实验结果表明,该算法能快速有效地处理高维混合属性数据流聚类问题。
其他文献
近年来,对高可靠性和高可用性的分布式计算系统的应用需求一直在稳定地增长,比如全球个人以及军用通信系统、航空控制系统、网络管理平台、金融系统等。随着分布式计算系统中
随着数据库技术的迅速发展、数据库管理系统的广泛应用,全球范围内数据的存储量急剧增加,数据挖掘正是在这种趋向下应运而生。数据挖掘技术自产生以来便形成了研究的热潮,有
随着网络通信技术的飞速发展,数字化多媒体数据在网络中日益普遍。数字媒体在通信网络中迅速便捷传播的同时也带动了信息隐藏技术的快速发展与广泛应用。信息隐藏技术以数字媒
随着互联网技术的飞速发展,中国网民数的增加,网络视频点播(Video on Demand,简称VOD)业务已经成为当今互联网的主流业务之一。传统视频点播系统基于客户端/服务器架构,虽然
在油气田开发的过程中,地质图件能够全面、真实的表述储层建模中的地质构造、和储层的各种性质。这些图件可以反映沉积、地层、构造、油藏等的各种性质,从而可以判断油气的富
随着计算机技术和互联网技术的迅猛发展,以视频记录的数据日益增多,基于视频数据的日常应用不断涌现。如何有效的管理和检索这些海量视频数据,成为亟待解决的研究课题。基于
随着信息技术的飞速发展,电子商务和企业物流信息化管理,无疑是企业增加核心竞争力,提高管理和经营效率的必要途径,尤其是互联网的发展孕育着企业管理和经营模式的革命,同时也为企
空间分辨率是衡量图像质量的一个重要标准,图像的分辨率越高就越能提供更多原始场景的细节。鉴于光学器件的物理局限性和昂贵的成本价格,迫切需要探讨一种可以突破成像系统限
城市环境空气质量关系到人们的生产、生活质量,城市环境空气污染问题成为日益关注的问题。工业、汽车、民用污染源等排放的污染物是造成城市空气污染的主要因素。由于导致污
普通高校招生是国家选拔人才、体现公平竞争、构建社会和谐的一个主要环节,是教育领域具有政治意义、社会意义和全局意义的一项重要工作。普通高校招生中的志愿填报及投档方式