Spark框架优化的大规模谱聚类并行算法

来源 :计算机应用 | 被引量 : 0次 | 上传用户:kejianghaoxl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决谱聚类在大规模数据集上存在的计算耗时和无法聚类等性能瓶颈制约,提出了基于Spark技术的大规模数据集谱聚类的并行化算法。首先,通过单向循环迭代优化相似矩阵的构建,避免重复计算;然后,通过位置变换和标量乘法替换来优化Laplacian矩阵的构建与正规化,降低存储需求;最后,采用近似特征向量计算来进一步减少计算量。不同测试数据集上的实验结果表明:随着测试数据集的规模增加,所提算法的单向循环迭代和近似特征值计算的运行时间呈线性增长,增长缓慢,其近似特征向量计算与精确特征向量计算取得相近的聚类效果,并且算法
其他文献
<正>1体育家庭作业的概念与内涵家庭作业是学校课程的重要组成部分,是连接课内学习与课外学习、学校教育与家庭教育的基本形式,是提升学生课程学习效果的重要途径。体育家庭
随着计算机和网络技术日趋成熟,事业单位档案管理进入了信息化建设新纪元。对比传统的事业单位档案管理模式,信息化管理给我们带来诸多改变,本文分析了现行事业单位档案管理状况
<正>阿基米德说过,给我一个支点,我可以撬动地球。和孩子对话也是一种科学,有它自己的支点。教育专家说,孩子在交谈时,他们的信息里经常有需要解读的密码。作为教育者,我们要
期刊
指出了随着我国教育体制的不断变革,高职院校教育教学信息化逐步成为现代化教学的重点,许多高职院校通过增加新设备、改革教学模式等方式进行。但在信息化校园建设过程中,仍
2016年,在国际油价处于低位震荡的情况下,世界油页岩的研究开发利用仍有所发展。2016年9月和11月,分别在爱沙尼亚和约旦召开了大型油页岩国际科技会议。当前世界上通过干馏生
一些基层单位,在档案工作中,呈现出一种令人担忧的现象,单位领导对档案工作不重视,档案发挥作用少,档案工作被边缘化。那么,如何有效地争取单位领导对档案工作的重视和支持,如何有效
以印尼油砂为原料,在500℃热解30min,测定了油砂热解产物四组分产率,并对热解产物进行化学组成、物相分析、全硫分析。结果如下:油砂热解四组分产率为:热解油15.63%、不凝气5
档案中介机构从成立至今已经走过了二十多年的风风雨雨。本文从档案行政管理部门的角度,分析了档案中介机构出现以来的一些弊病,提出从法律层面、档案行政管理部门层面、中介机
随着经济的持续快速增长,人类在取得高度物质文明的同时,也出现了人口膨胀、资源短缺、生态破坏、污染严重等一系列的危机。因此,改变传统的发展模式,走可持续发展之路,就成