论文部分内容阅读
随着互联网信息呈现几何级数增长,对与之产生的大规模高维数据的谱聚类的计算时间和内存使用提出了新的挑战。Hadoop MapReduce并行近似谱聚类算法为减少计算时间和内存使用而展开研究,首先,在构建近似谱聚类算法的稀疏化相似矩阵过程中,研究t最近邻稀疏化相似矩阵法和Nystr m低阶子矩阵抽样近似相似矩阵法,侧重因在t最近邻稀疏化相似矩阵使用主观性设置扩大了参数t的近邻范围,而造成的稀疏化相似矩阵中离群点对近似谱聚类算法质量的影响。提出一种基于t最近邻近似相似矩阵离群点优化的解决方法,通过证明含有离群点的t最近邻近似相似矩阵在该优化方法中存在最优解,并把该方法应用于近似谱聚类算法,提出优化的近似谱聚类算法,以期提高大规模高维数据近似谱聚类的质量。此外,论文在近似谱聚类算法设计中使用最近邻粗糙集模型选择k-means初始化聚类中心位置,避免聚类大规模高维数据时,近似谱聚类算法获得空聚类或非最佳聚类的结果。通过将上述近似谱聚类算法与经典的基于正交化Nystr m低阶子矩阵抽样近似相似矩阵谱聚类算法和基于t最近邻稀疏化近似相似矩阵谱聚类算法进行辅助对比实验,结果显示虽然近似相似矩阵优化时间较高,但是其聚类精确度优于后者。论文主要设计并实现Hadoop分布式文件系统MapReduce并行计算编程模型下近似谱聚类算法对大规模高维数据的聚类。通过研究Mapper和Reducer并行编程流程及Hadoop MapReduce并行算法中相互依赖步骤分解,分别研究并设计基于MapReduce优化离群点的t最近邻近似相似矩阵、Laplacian特征分解和基于最近邻初始化聚类中心位置的k-means并行策略与map()和reduce()函数,并分析了Hadoop MapReduce并行前后各自的时间复杂度,其中所设计的并行策略与依赖步骤的分解处理也为机器学习、数据挖掘、模式识别、信息检索、Web数据分析、计算机视觉、医学成像、信号与图形图像处理以及生物信息学等领域提供一种分析大规模高维数据的参考思路。通过在12台Dell2161服务器构成的Hadoop集群使用UCI Bag of Words数据集对所设计的MapReduce近似谱聚类算法的性能和聚类质量进行验证,实验结果显示所设计的并行近似谱聚类算法达到了一定的预期结果,并行实验中使用经典的谱聚类评估标准也进一步验证了所设计的并行近似谱聚类算法在处理大规模高维数据上的正确性和有效性。