非独立同分布下K均值算法的改进及在球员数据分析中的应用研究

来源 :齐鲁工业大学 | 被引量 : 2次 | 上传用户:big_moth123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代的到来必将产生大量的数据,数据挖掘则是从这些数据中用非平凡的方法来发现有价值的信息,聚类分析作为这些非平凡的方法之一,是数据挖掘中的一个重要研究领域。在聚类分析的相关算法中,K均值算法是其中的经典算法之一,其简单、高效,但也存在一些缺陷,例如随机选取聚类中心点容易导致聚类结果不稳定,并且会受到一些离群点的影响,使得聚类结果往往只是局部最优。此外,传统K均值算法及目前对其改进的算法都是在独立同分布下进行的。然而真实世界的数据往往是非独立同分布的(Non-Independent and Identically Distribution,简写Non-IID),即属性值、属性、对象之间或多或少都会存在一些耦合或交互关系。如果忽略了这类关系,可能会导致数据中的重要信息丢失,从而影响聚类分析的结果。因此本文在Non-IID概念下对K均值算法进行改进,并将优化后的算法应用到NBA球员数据中。本文的主要工作如下:在理论研究方面,主要分为两个部分。第一部分,针对K均值算法随机选取初始聚类中心以及易受离群点影响而导致聚类不稳定的缺陷,提出一种独立同分布下优化K均值算法(Optimized K-means Algorithm within IID Context,简写IIDOPK),即利用双领域思想和最大距离积法相结合的方式来对其进行优化。实验结果表明在UCI数据集下能够得到较高的准确率、较好的聚类效果以及较少的迭代次数。第二部分,针对独立同分布思想的缺陷,将优化后的K均值算法与Non-IID概念相结合,提出一种Non-IID下优化K均值算法(Optimized K-means Algorithm within Non-IID Context,简写Non IID-OPK)。首先利用修改后的Pearson相关系数公式来计算属性本身和不同属性之间的耦合关系,然后将得到的耦合关系系数以矩阵形式表示并通过类似泰勒展开式形式映射到数据集的对象之间,从而得到原始数据集的全局耦合表示,最后将新的耦合表示带入优化后的K均值算法进行聚类分析。实验结果表明在相同的UCI数据集下能够得到更高的准确率。在具体应用方面,随着数据挖掘分析技术的发展,人们同样可以从NBA球员数据中挖掘出一些潜藏的有价值的信息。目前已有的一些研究方法都是基于独立同分布下进行的,这些方法忽略了属性、属性值、对象之间的耦合关系,所以本文将验证后的Non IID-OPK算法带入NBA球员数据中进行聚类分析,根据球员的不同位置对其进行等级划分,并考虑一些额外的因素为球队的管理人员在进行球员交易签约时提供决策建议,让球队用更少的资金获得更好的效益。
其他文献
为贯彻党的十九大精神,在大众创业、万众创新的新形势下,创新人才培养与服务体系建构势在必行。创新人才是一种特殊的人才,既要具备人才本身所具有的所有特质,还应具有创新性
毛白杨(Populus tomentosa)为杨柳科、杨属落叶大乔木,生长快,树干通直挺拔,是造林绿化的树种,普遍应用于城市乡村绿化,其品种适应性强,主根和侧根都比较发达,枝叶茂密,是速生
目的自噬是维持细胞稳态的重要生理过程。我们之前研究发现高剂量中波紫外线(50 mJ/cm2)辐照的角质形成细胞自噬水平降低。棉子糖是一种天然三糖,不仅能作为新型自噬诱导剂,
股权质押融资作为一种融资手段普遍应用于上市公司。控股股东将所持有的上市公司股份质押给金融机构等质权人,从而获取融资或者提供担保等。据东方财富choice数据统计,累计到
房地产市场营销以消费者对各类住宅商品的需求为出发点,设计和开发各类住宅产品,通过营销活动向购房者传递相关信息。其中,标签是常用的信息载体,“绿色”、“教育”、“轨道
知识图谱是Google公司提出的一种大规模语义网络,旨在描述现实世界中存在的各种实体、概念及关系,作为大数据时代的重要知识表示方法,知识图谱已经成为人工智能的关键技术之
随着经济全球化的快速发展,特别是金融全球化的脚步不断加快,我国对于商业银行的创办和利率市场化程度不断放开,因此,我国商业银行之间的竞争也不断加剧,如何维系与客户间关
偏微分方程由物理与几何问题发展到现在作为数学一独立分支已经有200多年的历史了,这一学科主要研究椭圆型、双曲型、抛物型方程解的正则性、适定性、稳定性、可控性、衰减及
通过碘转移自由基聚合,首次合成出以线形聚丙烯酸酯二醇为软段,软硬段相分离的真正的聚丙烯酸酯型水性聚氨酯。采用α,α’-二碘对二甲苯为链转移剂,β-巯基乙醇为功能化试剂
青杆(Picea wilsonii)为松科云杉属常绿针叶高大乔木,是我国特有的一种造林树种及园林绿化树种。目前随着环境的不断恶化与人为因素的干扰,青杆的种群数量及分布范围急剧缩小