非独立同分布下K均值算法的改进及在球员数据分析中的应用研究

来源 :齐鲁工业大学 | 被引量 : 2次 | 上传用户：big_moth123

【摘要】

：

互联网时代的到来必将产生大量的数据,数据挖掘则是从这些数据中用非平凡的方法来发现有价值的信息,聚类分析作为这些非平凡的方法之一,是数据挖掘中的一个重要研究领域。在

【作者】

：

潘品臣

【出处】

：

齐鲁工业大学

【发表日期】

：

2020年01期

【关键词】

：

非独立同分布 K均值耦合关系初始聚类中心球员数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网时代的到来必将产生大量的数据,数据挖掘则是从这些数据中用非平凡的方法来发现有价值的信息,聚类分析作为这些非平凡的方法之一,是数据挖掘中的一个重要研究领域。在聚类分析的相关算法中,K均值算法是其中的经典算法之一,其简单、高效,但也存在一些缺陷,例如随机选取聚类中心点容易导致聚类结果不稳定,并且会受到一些离群点的影响,使得聚类结果往往只是局部最优。此外,传统K均值算法及目前对其改进的算法都是在独立同分布下进行的。然而真实世界的数据往往是非独立同分布的(Non-Independent and Identically Distribution,简写Non-IID),即属性值、属性、对象之间或多或少都会存在一些耦合或交互关系。如果忽略了这类关系,可能会导致数据中的重要信息丢失,从而影响聚类分析的结果。因此本文在Non-IID概念下对K均值算法进行改进,并将优化后的算法应用到NBA球员数据中。本文的主要工作如下:在理论研究方面,主要分为两个部分。第一部分,针对K均值算法随机选取初始聚类中心以及易受离群点影响而导致聚类不稳定的缺陷,提出一种独立同分布下优化K均值算法(Optimized K-means Algorithm within IID Context,简写IIDOPK),即利用双领域思想和最大距离积法相结合的方式来对其进行优化。实验结果表明在UCI数据集下能够得到较高的准确率、较好的聚类效果以及较少的迭代次数。第二部分,针对独立同分布思想的缺陷,将优化后的K均值算法与Non-IID概念相结合,提出一种Non-IID下优化K均值算法(Optimized K-means Algorithm within Non-IID Context,简写Non IID-OPK)。首先利用修改后的Pearson相关系数公式来计算属性本身和不同属性之间的耦合关系,然后将得到的耦合关系系数以矩阵形式表示并通过类似泰勒展开式形式映射到数据集的对象之间,从而得到原始数据集的全局耦合表示,最后将新的耦合表示带入优化后的K均值算法进行聚类分析。实验结果表明在相同的UCI数据集下能够得到更高的准确率。在具体应用方面,随着数据挖掘分析技术的发展,人们同样可以从NBA球员数据中挖掘出一些潜藏的有价值的信息。目前已有的一些研究方法都是基于独立同分布下进行的,这些方法忽略了属性、属性值、对象之间的耦合关系,所以本文将验证后的Non IID-OPK算法带入NBA球员数据中进行聚类分析,根据球员的不同位置对其进行等级划分,并考虑一些额外的因素为球队的管理人员在进行球员交易签约时提供决策建议,让球队用更少的资金获得更好的效益。

其他文献

关于沈阳创新人才培养与服务体系建构的对策研究

为贯彻党的十九大精神,在大众创业、万众创新的新形势下,创新人才培养与服务体系建构势在必行。创新人才是一种特殊的人才,既要具备人才本身所具有的所有特质,还应具有创新性

会议

沈阳创新人才服务体系对策

缓释肥施用量对毛白杨苗木质量的影响

毛白杨（Populus tomentosa）为杨柳科、杨属落叶大乔木,生长快,树干通直挺拔,是造林绿化的树种,普遍应用于城市乡村绿化,其品种适应性强,主根和侧根都比较发达,枝叶茂密,是速生

学位

毛白杨缓释肥施肥量苗木质量

棉子糖对HaCaT细胞的抗中波紫外线损伤效应的机制研究

目的自噬是维持细胞稳态的重要生理过程。我们之前研究发现高剂量中波紫外线(50 mJ/cm2)辐照的角质形成细胞自噬水平降低。棉子糖是一种天然三糖,不仅能作为新型自噬诱导剂,

学位

自噬棉子糖中波紫外线MTOR角质形成细胞

YL公司股权质押融资问题研究

股权质押融资作为一种融资手段普遍应用于上市公司。控股股东将所持有的上市公司股份质押给金融机构等质权人,从而获取融资或者提供担保等。据东方财富choice数据统计,累计到

学位

股权质押控股股东控制权与现金流权公司价值

开发商营销标签对住宅价格的影响

房地产市场营销以消费者对各类住宅商品的需求为出发点,设计和开发各类住宅产品,通过营销活动向购房者传递相关信息。其中,标签是常用的信息载体,“绿色”、“教育”、“轨道

学位

营销标签特征价格模型分位数回归模型住宅价格

基于多源数据的高校学术知识图谱构建及其应用研究

知识图谱是Google公司提出的一种大规模语义网络,旨在描述现实世界中存在的各种实体、概念及关系,作为大数据时代的重要知识表示方法,知识图谱已经成为人工智能的关键技术之

学位

知识图谱表示学习学术数据数据分析

基于用户行为的银行客户风险分析系统的设计与实现

随着经济全球化的快速发展,特别是金融全球化的脚步不断加快,我国对于商业银行的创办和利率市场化程度不断放开,因此,我国商业银行之间的竞争也不断加剧,如何维系与客户间关

学位

用户行为银行客户客户风险风险分析

带记忆项的多孔弹性方程解的能量衰减估计

偏微分方程由物理与几何问题发展到现在作为数学一独立分支已经有200多年的历史了,这一学科主要研究椭圆型、双曲型、抛物型方程解的正则性、适定性、稳定性、可控性、衰减及

学位

带记忆项多孔弹性方程松弛函数乘子法一般衰减

聚丙烯酸酯二醇水性聚氨酯的合成

通过碘转移自由基聚合,首次合成出以线形聚丙烯酸酯二醇为软段,软硬段相分离的真正的聚丙烯酸酯型水性聚氨酯。采用α,α’-二碘对二甲苯为链转移剂,β-巯基乙醇为功能化试剂

会议

碘转移自由基聚合聚丙稀酸酯二醇水性聚氨酯分散体

青杄盐胁迫响应基因筛选及功能验证体系的建立

青杆(Picea wilsonii)为松科云杉属常绿针叶高大乔木,是我国特有的一种造林树种及园林绿化树种。目前随着环境的不断恶化与人为因素的干扰,青杆的种群数量及分布范围急剧缩小

学位

青杆耐盐性马铃薯遗传转化

非独立同分布下K均值算法的改进及在球员数据分析中的应用研究

与本文相关的学术论文