论文部分内容阅读
伴随着科学技术的迅速发展,当今社会已演变成为一个信息爆炸的时代,每天大量的数据信息被产生与更新。因此,通过对每天产生的数据进行挖掘,并从中提取出有用信息变得尤为重要。然而数据的规模早已超越了传统方法分析与处理数据的能力,出现了“数据爆炸,却知识贫乏”的现象。快速、精确的提取出海量数据中隐藏的信息成为众多研究人员所研究的热点。而对无标签问题的挖掘与提取,聚类分析扮演着不可或缺的角色。并在众多领域得到有效应用。如病毒入侵检测、统计分析、图像处理等。K-means算法作为数据挖掘算法中十大经典算法之一,是采用交替最小化方法求解非凸优化问题的迭代型算法。该算法结果简单易懂、运行效率高,它作为一种无监督的聚类算法,在历史上,有着许多不同领域的研究人员对其进行研究与改进,其中比较知名的有Forgey,McQueen等人。该算法已被广发应用在许多不同的领域。但是仍旧有着许多的问题没有得到很好的解决。如初始中心点的选取、确定数据集的类别数、样本对象间相似性等问题。因此,为提高该算法在聚类过程中的稳定性以及对象间的相关性等问题。本文分别以算法中的初始化、聚类中心数目的确定以及距离划分函数三点作为主要研究目标,并提出了相应的改进方法。同时将改进的算法对股价进行分析。具体工作如下:(1)针对K-means算法随机选取初始中心点过程中所选聚类中心敏感。本文通过将最大最小初始化与密度相结合,提出一种新的初始化方法。文中通过所选初始点密度与类间距离来确定阈值,然后对样本对象进行划分。从而获得稳定、唯一、逼近真实分布的初始聚类中心。实验结果表明,本文能获得更优的初始簇中心。(2)预先确定类别数作为K-means算法研究中的一大难点。针对此问题,本文在Rtkmeans算法的基础上进行了改进,从而获得一种自动确定数据集类别数的K-means算法,相比Rt-kmeans算法,本文方法所得到的数据集的类别数目更为准确。(3)传统K-means算法难以体现对象间相关性的问题。本文使用皮尔相关性系数对欧式距离进行加权,从而增强簇中样本对象间的相关性。相比传统K-means算法以及一些改进的较为新颖的K-means算法,实验数据表明,本文改进的K-means算法所得结果更准确。(4)股票数据的分析过程中主要分为两部分:一是对多支股票间的组合分析;二是关于单支股票自身股价波动变化可能性的研究。结果表明,C-kmeans算法能将关联性较强的股票划分在相同的类中。