论文部分内容阅读
数据挖掘技术在当今大数据涌现的今天已经变得越来越重要,比如乘坐飞机的每一个乘客的购票信息,银行里每一个顾客的交易记录,网上每一个网民的购物记录,各大超市里所有商品的卖价等等,所有的这一些都预示着大数据正在不断涌现,如何保存处理这些大数据就成为当今信息技术研究的重点课题,数据挖掘技术无疑将成为我们唯一的方式来解决这个问题。而且大数据问题在国内外都是一个崭新的领域,相应的科研人员如果能够更多关注这一问题并恒于研究勤于反思努力实践,那么我们将在这一领域取得最终的胜利。K-means聚类算法是数据挖掘的知识,是聚类算法中使用频率最多的算法,众多国内外学者都对其有深入研究和改进,但是K-means算法本身存在的几个缺点仍然无法完全克服,像很难在非凸形状数据集上进行聚类,容易被噪声点干扰,对高维的数据集的聚类准确性不高,聚类之前需要输入聚类数目等。因此在本文中,就它的这几个缺点做了改进创新,使其通用性大大增强。本文主要工作包括:1.提出基于三角划分的RtK-means聚类算法,通过Delaunay三角化进行初始网格划分,删除三角网格中的长边,根据整体聚类获取较为准确的聚类数。该算法有效解决k均值算法难以聚类非凸形状数据集的问题,对数据类簇相距比较远的情况更加容易聚类,在人工数据集上取得较为准确的聚类效果。2.给出局部邻域半径内处理边缘数据点的快速方法,具体方法是先对删除长边的点选定一个邻域半径r,然后对该邻域半径内的点直接采用高斯核函数进行聚类,该方法解决了流行数据难以聚类边缘数据点的问题,同时也解决了噪声点干扰聚类问题。3.提出基于谱聚类的PK-means算法,将谱聚类应用到k均值算法中聚类高维非线性数据,该算法主要从两个方面对k均值做了改进创新:(1)给出自动确定初始聚类数目的办法,聚类之前首先计算每个数据点的相对密度,然后按照降序对所有数据点进行排序,选取一些密度相对最高的一些数据点对其进行聚类,并确定聚类数目k,最后利用此方法在UCI数据集上验证,聚类效果显著。(2)提出基于模糊的相似性度量方法,该方法采用FCM算法求隶属度矩阵的方法确定元素之间的相似性,即隶属度矩阵确定之后可通过判断两个不同点是否属于同一个集群确定两点的相似性,该相似性度量方法解决了谱聚类算法对参数敏感的问题,该算法在高维数据集上聚类效果显著。