基于Hadoop MapReduce并行近似谱聚类算法研究与实现

被引量 : 0次 | 上传用户：gtfzwcb2

【摘要】

：

随着互联网信息呈现几何级数增长，对与之产生的大规模高维数据的谱聚类的计算时间和内存使用提出了新的挑战。Hadoop MapReduce并行近似谱聚类算法为减少计算时间和内存使用而

【作者】

：

杨煜

【发表日期】

：

2014年期

【关键词】

：

Hadoop分布式系统 MapReduce并行计算近似谱聚类算法稀疏化近似相似矩阵 Laplacian特征分解 k-means初始化方法大规模高维数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网信息呈现几何级数增长，对与之产生的大规模高维数据的谱聚类的计算时间和内存使用提出了新的挑战。Hadoop MapReduce并行近似谱聚类算法为减少计算时间和内存使用而展开研究，首先，在构建近似谱聚类算法的稀疏化相似矩阵过程中，研究t最近邻稀疏化相似矩阵法和Nystr m低阶子矩阵抽样近似相似矩阵法，侧重因在t最近邻稀疏化相似矩阵使用主观性设置扩大了参数t的近邻范围，而造成的稀疏化相似矩阵中离群点对近似谱聚类算法质量的影响。提出一种基于t最近邻近似相似矩阵离群点优化的解决方法，通过证明含有离群点的t最近邻近似相似矩阵在该优化方法中存在最优解，并把该方法应用于近似谱聚类算法，提出优化的近似谱聚类算法，以期提高大规模高维数据近似谱聚类的质量。此外，论文在近似谱聚类算法设计中使用最近邻粗糙集模型选择k-means初始化聚类中心位置，避免聚类大规模高维数据时，近似谱聚类算法获得空聚类或非最佳聚类的结果。通过将上述近似谱聚类算法与经典的基于正交化Nystr m低阶子矩阵抽样近似相似矩阵谱聚类算法和基于t最近邻稀疏化近似相似矩阵谱聚类算法进行辅助对比实验，结果显示虽然近似相似矩阵优化时间较高，但是其聚类精确度优于后者。论文主要设计并实现Hadoop分布式文件系统MapReduce并行计算编程模型下近似谱聚类算法对大规模高维数据的聚类。通过研究Mapper和Reducer并行编程流程及Hadoop MapReduce并行算法中相互依赖步骤分解，分别研究并设计基于MapReduce优化离群点的t最近邻近似相似矩阵、Laplacian特征分解和基于最近邻初始化聚类中心位置的k-means并行策略与map()和reduce()函数，并分析了Hadoop MapReduce并行前后各自的时间复杂度，其中所设计的并行策略与依赖步骤的分解处理也为机器学习、数据挖掘、模式识别、信息检索、Web数据分析、计算机视觉、医学成像、信号与图形图像处理以及生物信息学等领域提供一种分析大规模高维数据的参考思路。通过在12台Dell2161服务器构成的Hadoop集群使用UCI Bag of Words数据集对所设计的MapReduce近似谱聚类算法的性能和聚类质量进行验证，实验结果显示所设计的并行近似谱聚类算法达到了一定的预期结果，并行实验中使用经典的谱聚类评估标准也进一步验证了所设计的并行近似谱聚类算法在处理大规模高维数据上的正确性和有效性。

其他文献

老年人犯罪及预防研究

目前我国已进入老龄化社会，老年人犯罪率逐步上升，并成为一类非常棘手的犯罪群体。老年人犯罪与我国“尊老”的道德观相悖，法律与道德存在内在联系且内容在一定范围内有重合之处

学位

老年人犯罪刑法刑罚体制预防措施

利用背景噪声自相关研究芦山M7.0地震震源区地壳相对波速的时空变化特征

根据3个位于芦山地震震中区附近台站记录的连续波形,采用自相关函数研究了芦山地震震源区2012年4月20日至2014年4月20日地壳相对速度的时空变化特征。3个台站分别是宝兴台（BAX

期刊

芦山地震地壳介质应力同震体应变自相关格林函数

妇女艾滋病流行现状的社会性别研究

艾滋病即获得性免疫缺陷综合症(acquired im-munodeficiency syndrome,AIDS),是一个日益加剧的全球性重大社会问题。《2011年度全球艾滋病流行报告》显示,2010年底全球大约有

期刊

艾滋病妇女社会性别研究

照亮教材文本解读的四面镜子

<正>增强教材文本解读能力既是教师专业发展的应有之意,也是有效开展课堂教学的现实需要。科学的解读教材文本有助于教师精准把握教材文本,更好地开展教学工作。本文试以"影

期刊

文本解读显微镜教材文本社会必要劳动时间平面镜文本知识社会劳动生产率价值量

让数学史真正融入概念教学中——由一堂“对数”概念课引发的思考

<正>高中数学课程目标之一:获得必要的数学基础知识和基本技能,理解基本的数学概念、数学结论的本质,了解概念、结论等产生的背景、应用,体会……数学概念是学生认知的基础,

期刊

数学史概念课概念教学常用对数表纳皮尔数学概念数学家高中数学课程

基于ARIMA模型的我国人均生活能源消费预测

能源是国家的战略性资源,是一个国家经济增长和社会发展的重要物质基础.本文基于1983～2009年我国人均生活能源消费量构建了ARIMA（3,2,1）模型,并运用该模型进行了对未来我国的人

期刊

人居生活能源消费ARIMA(321)模型预测

如何客观认识日本明治维新后的封建残余

明治维新后,日本留下诸多封建残余.这些封建残余,在当时日本仍处在内忧外患的严峻形势下,为"富国强兵"、"殖产兴业"、"文明开化"起过一定的推动作用,随着日本政局逐步稳定,经

期刊

明治维新封建残余

黄芪对间歇低氧大鼠海马及胰腺损伤的作用及其机制研究

目的：通过建立大鼠间歇低氧模型，模拟阻塞性睡眠呼吸暂停低通气综合征（OSAHS）患者体内间歇低氧环境，探讨黄芪对间歇低氧暴露大鼠海马神经细胞和胰岛β细胞凋亡的影响及其具体机制，

学位

阻塞性睡眠呼吸暂停低通气综合征间歇低氧HIF-1α（缺氧诱导因子-1α）iNOS（诱导型一氧化氮合酶）Bcl-2Bax

GNC公司内部物流改善策略研究

企业物流战略的顺利实施是企业整体战略的重要支持，企业内部物流是企业物流的重要组成部分。如何优化企业内部物流运作流程，将实物管理和系统管理高效结合起来，从而提高运作效率

学位

企业物流看板拉动物料超市循环配送

局属动态

《青海省找矿突破战略行动实施方案（2016-2020年）》修编工作顺利完成《青海省找矿突破战略行动实施方案（2016-2020年）》于6月19日经省人民政府批准实施。《方案》聚焦＂四个扎扎实

期刊

地勘局党委班子问题清单回顾总结核工业整改落实生态文明思想

基于Hadoop MapReduce并行近似谱聚类算法研究与实现

与本文相关的学术论文