论文部分内容阅读
数据流聚类是数据流挖掘中重要的研究领域,目前国内外数据流聚类算法还存在诸多问题。例如,未很好解决高维数据内在的稀疏性,聚类效率低下,数据类型仅限于数值数据,不能满足用户的需求等等。针对这些问题,本文主要研究基于子空间的数据流聚类算法,其研究成果对顾客购物模式、网络通信的错误分析、电子商务、商业智能以及市场决策等领域具有重要的意义。首先,为了解决高维数据的稀疏性,以及在当前受限聚类环境中聚类效率和精度受数据流流量的高波动性影响较大等问题,提出了一种高维数据流的自适应子空间聚类算法SAStream。该算法改进了HPStream中的微簇结构并定义候选簇,只在相应的子空间内计算新来数据点到候选簇质心的距离,减少聚类时被检查微簇的数目,将形成的微簇存储在金字塔时间框架中,使用时间衰减函数删除过期的微簇;当数据流量大时,根据监测的系统资源使用情况自动调整界限半径和簇选择因子,从而调节聚类的粒度。其次,为了聚类高维分类数据流,提出了一种基于子空间的高维分类数据流聚类算法SUBCStream。该算法改进了簇的压缩存储结构,引进了符号表和频率表存储数据。定义了聚类目标函数,通过最小化目标函数的方法达到发现簇和对应子空间的目的。通过对簇结构进行加法运算,可以合并簇结构或者构建新的簇结构。为每个数据点和簇定义了衰减函数,删除最久未更新的微簇,减小了内存开支。最后,本文使用Java对上述算法进行实现,实验数据集选择了真实数据集和仿真数据集,对提出的SAStream算法和SUBCStream算法进行了实验测试。实验证明所提出的算法在解决各自的问题上是有效的。