基于子空间的高维数据流聚类算法研究

被引量 : 0次 | 上传用户:hartyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流聚类是数据流挖掘中重要的研究领域,目前国内外数据流聚类算法还存在诸多问题。例如,未很好解决高维数据内在的稀疏性,聚类效率低下,数据类型仅限于数值数据,不能满足用户的需求等等。针对这些问题,本文主要研究基于子空间的数据流聚类算法,其研究成果对顾客购物模式、网络通信的错误分析、电子商务、商业智能以及市场决策等领域具有重要的意义。首先,为了解决高维数据的稀疏性,以及在当前受限聚类环境中聚类效率和精度受数据流流量的高波动性影响较大等问题,提出了一种高维数据流的自适应子空间聚类算法SAStream。该算法改进了HPStream中的微簇结构并定义候选簇,只在相应的子空间内计算新来数据点到候选簇质心的距离,减少聚类时被检查微簇的数目,将形成的微簇存储在金字塔时间框架中,使用时间衰减函数删除过期的微簇;当数据流量大时,根据监测的系统资源使用情况自动调整界限半径和簇选择因子,从而调节聚类的粒度。其次,为了聚类高维分类数据流,提出了一种基于子空间的高维分类数据流聚类算法SUBCStream。该算法改进了簇的压缩存储结构,引进了符号表和频率表存储数据。定义了聚类目标函数,通过最小化目标函数的方法达到发现簇和对应子空间的目的。通过对簇结构进行加法运算,可以合并簇结构或者构建新的簇结构。为每个数据点和簇定义了衰减函数,删除最久未更新的微簇,减小了内存开支。最后,本文使用Java对上述算法进行实现,实验数据集选择了真实数据集和仿真数据集,对提出的SAStream算法和SUBCStream算法进行了实验测试。实验证明所提出的算法在解决各自的问题上是有效的。
其他文献
本文建立了一套适合于悬停和前飞状态纵列式直升机双旋翼气动干扰特性计算的自由尾迹分析方法。利用该方法针对纵列式双旋翼和传统单旋翼的尾迹和气动特性进行了计算和分析。
就全球而言,信息化始于20世纪中期,其主要标志是全球性广播电视网、电话电信网和国际互联网的迅速普及,以及信息高速公路计划的提出和实施。信息技术在工农业生产、科研教育
以春光油田春17区块水平井试采情况为例,系统分析了各生产井的生产特征,认为该区块可采用蒸汽吞吐开发,水平井的开发效果与注气强度相关性较好;对典型不正常井进行了原因分析
语言是一种科学,一种艺术,辅导员思想政治教育语言在思想政治教育中具有重要作用。本文从辅导员思想政治教育语言的主要问题出发,强调由于现实原因,辅导员思想政治教育语言存
二氧化硫是大气污染物,其主要的来源是矿物燃料的燃烧及工业排放。我国是以燃煤为主要燃料的国家,煤中一般含有1%~8%的硫份。因此,工业锅炉及燃煤窑炉排烟中二氧化硫的浓度高
热镀锌双相钢强度高、抗腐蚀性好,且具有良好的冲压性能,已成为未来发展轻质量高安全性汽车的主要材料,但由于其表面镀锌层的影响,传统的点焊工艺带来的问题是易产生飞溅和接
胜任素质模型对现代企业人力资源管理有着特殊贡献,受到众多学者和企业的关注,成为当今人力资源管理领域研究的焦点。在知识经济时代,企业要想在激烈地市场竞争中获得经济效
在军事、星球探测、自然资源探查等领域内,非结构环境移动机器人有着广泛的应用前景和社会需求。在地球陆地表面,有超过50%以上的面积为崎岖不平的山丘或沼泽,仅仅依靠轮式机
近年来国家调控政策最为集中的产业是房地产业,包括国十条,限贷、限购令、物业税等都是老百姓耳熟能详的词。基于对房地产市场的不充分竞争性以及房地产市场的自身特点,我国