论文部分内容阅读
聚类分析是数据挖掘的一项重要功能,是数据挖掘领域中一个非常活跃的研究课题。聚类分析既可以作为一个独立的工具来发现数据的全局分布模式,也可以作为其他算法的预处理步骤广泛应用于其他研究领域。在互联网、生物信息、商务电子等许多领域都可以借助聚类分析方法帮助解决相关问题。数据采集和存储技术的进步导致庞大的数据日益增多,然而单纯的统计技术和传统的数据挖掘技术已经不足以解决一些日益复杂的数据问题,特别是涉及海量数据集的问题。本文从聚类分析的角度出发,探索能够有效处理海量数据及大数据的分析和管理方法,主要包括以下几个方面的内容:针对实际数据集中存在少量带有类别信息的数据,提出了一种两阶段近邻传播半监督聚类算法2SAP,以k-近邻图表示数据分布的局部信息,利用少量的先验成对约束信息调整相似度矩阵,两次借助半监督的近邻传播算法SAP得出最终的代表点集合。针对实际数据集存在类别交叉重叠的特点,对现有的SRIDHCR算法进行了优化处理。设计算法获取初始中心代表点集合和初始边界代表点集合,将二者的并集作为SRIDHCR算法的初始代表点集合,从而可以大大降低算法的运算时间。此外,设计方案将代表点获取算法应用于生物信息学和文本分类中,并通过实验数据证明了方案的可行性。