论文部分内容阅读
当今社会处于一个全面信息化的时代,信息存在于人们日常生活的各个领域之中。作为数据挖掘领域的重要算法之一,聚类是一种无监督的分类工具。根据个体的不同属性,聚类算法将原本无规则的数据集划分为多个聚类组,同一个聚类内的数据相互之间相似度较高,而不同聚类的数据之间相似度较低。通过聚类,符合需求的聚类组中的数据可以得到批量的处理,有助于人们对数据进行管理与各种操作。然而,随着近十多年来信息存储和处理技术的飞速发展,信息量的爆炸式增长给传统的聚类算法带来了一定的困难。首先,随着待处理数据的多样化,数据的形式由单纯的数字型变为文本、音频、视频,其属性的种类也变得多种多样,属性的统一量化变得较为困难;同时,由于数据个体本身属性的数量由原来的几种增加到几十种甚至成百上千,数据集的结构呈现出更为复杂的非线性特征,使得传统的划分聚类方法变得不再可行。更加重要的是,大数据集的聚类操作需要更大的存储空间与更多计算时间,使得传统聚类算法的性价比较低。本文主要针对时间与空间损耗问题,提出一种基于权重抽样的聚类算法,使得在保证聚类质量的同时,尽可能的减少计算时间。针对大规模数据聚类带来的空间需求和时间损耗问题,并行计算与合理缩小聚类数据集是两种可行的方法。通过在原有数据集进行抽样形成子集,在数据子集上进行聚类操作显然可以极大的节省存储空间和聚类时间。与此同时,如果可以尽可能的保证子集中的数据更加典型和有意义,以至于子集上的聚类结果接近于原数据集上的聚类结果,算法的设计也便达到最终目的。本文提出了一种对这类更加有意义的数据点的定义,对于原数据集中的数据赋以权重,并设计了几种权重的更改方法,可以借助熵、方差的使用来提高这些有意义的数据点的权重,使其有更大可能性进入抽样子集。实验结果显示,此后的聚类算法在此抽样子集上进行,在保证聚类质量的同时,减少了对于存储空间和计算时间的需求。