论文部分内容阅读
XML文档分类技术在XML数据管理中具有重要的学术意义和应用价值。如何对XML数据实现基于语义信息和结构信息的快速分类学习是当前热门的研究方向之一。此外,随着互联网技术的发展,基于MapReduce的云计算技术以其强大的并行计算能力,成为海量数据处理中最普及的计算技术。极限学习机(Extreme Learning Machine,ELM)在分类问题上具有极快的学习速度和好的泛化性能,并且已经被证明极限学习机与支持向量机在优化问题的角度上具有一致的优化目标。极限学习机能够使用支持向量机中的核函数以简化支持向量机的计算过程。然而,带有核函数的极限学习机的计算过程主要是矩阵计算,随着训练样本规模的增大,急剧增长的内存消耗将影响计算效率。本文针对海量XML数据规模的分类问题,在MapReduce计算模型的基础上提出了基于核函数的极限学习机的海量XML数据的分布式训练方案。其中,分布式XML表达模型转换算法(MapReduce based Structured Link Vector Model,MR-SLVM)能够快速地将海量XML训练数据转换为能够作为极限学习机输入的表达模型;分布式核函数极限学习机(Distributed Kernelized ELM,DK-ELM)实现了核函数极限学习机的并行训练;采用随机奇异值分解方法(Stochastic Singular Value Decomposition,SSVD)实现分布式矩阵求逆;设计了两个DK-ELM的子算法以确保DK-ELM在MapReduce模型上的并行性,包括分布式径向基核函数(Distributed Radial Basis Function,D-RBF)和分布式矩阵向量乘法(Distributed Matrix-Vector Multiplication,DMXV)。最后,在真实的分布式集群环境中,通过大量真实数据集的实验测试了MR-SLVM和DK-ELM的可扩展性和分类训练性能。实验结果表明,本文提出的训练方案在不影响核函数极限学习机的计算理论的前提下,具有较好的可扩展性。