论文部分内容阅读
互联网时代的到来必将产生大量的数据,数据挖掘则是从这些数据中用非平凡的方法来发现有价值的信息,聚类分析作为这些非平凡的方法之一,是数据挖掘中的一个重要研究领域。在聚类分析的相关算法中,K均值算法是其中的经典算法之一,其简单、高效,但也存在一些缺陷,例如随机选取聚类中心点容易导致聚类结果不稳定,并且会受到一些离群点的影响,使得聚类结果往往只是局部最优。此外,传统K均值算法及目前对其改进的算法都是在独立同分布下进行的。然而真实世界的数据往往是非独立同分布的(Non-Independent and Identically Distribution,简写Non-IID),即属性值、属性、对象之间或多或少都会存在一些耦合或交互关系。如果忽略了这类关系,可能会导致数据中的重要信息丢失,从而影响聚类分析的结果。因此本文在Non-IID概念下对K均值算法进行改进,并将优化后的算法应用到NBA球员数据中。本文的主要工作如下:在理论研究方面,主要分为两个部分。第一部分,针对K均值算法随机选取初始聚类中心以及易受离群点影响而导致聚类不稳定的缺陷,提出一种独立同分布下优化K均值算法(Optimized K-means Algorithm within IID Context,简写IIDOPK),即利用双领域思想和最大距离积法相结合的方式来对其进行优化。实验结果表明在UCI数据集下能够得到较高的准确率、较好的聚类效果以及较少的迭代次数。第二部分,针对独立同分布思想的缺陷,将优化后的K均值算法与Non-IID概念相结合,提出一种Non-IID下优化K均值算法(Optimized K-means Algorithm within Non-IID Context,简写Non IID-OPK)。首先利用修改后的Pearson相关系数公式来计算属性本身和不同属性之间的耦合关系,然后将得到的耦合关系系数以矩阵形式表示并通过类似泰勒展开式形式映射到数据集的对象之间,从而得到原始数据集的全局耦合表示,最后将新的耦合表示带入优化后的K均值算法进行聚类分析。实验结果表明在相同的UCI数据集下能够得到更高的准确率。在具体应用方面,随着数据挖掘分析技术的发展,人们同样可以从NBA球员数据中挖掘出一些潜藏的有价值的信息。目前已有的一些研究方法都是基于独立同分布下进行的,这些方法忽略了属性、属性值、对象之间的耦合关系,所以本文将验证后的Non IID-OPK算法带入NBA球员数据中进行聚类分析,根据球员的不同位置对其进行等级划分,并考虑一些额外的因素为球队的管理人员在进行球员交易签约时提供决策建议,让球队用更少的资金获得更好的效益。