Spark环境下的并行模糊C均值聚类算法研究

来源 :第三届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:snowmansoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着需要处理数据集的规模越来越大、时效性要求越来越高,对聚类算法的性能和大数据适应能力提出了更高的要求。模糊C均值聚类(FCM)是一种重要的柔性聚类技术,在多个领域应用广泛,然而性能和可扩展性是其在大数据时代面临的主要挑战。随着Spark平台的流行,本文设计并实现了Spark平台下的FCM算法Spark-FCM,提高FCM算法的性能和大数据适应性。首先基于FCM算法的计算特点,设计了分布式和缓存敏感的常用矩阵操作,包括乘法、转置和加法等;然后基于矩阵操作,设计了Spark-FCM算法,主要数据结构采用分布式矩阵存储,具有节点间数据移动少和每个步骤分布式计算特点。通过在单机和集群环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集。
其他文献
  在涉密单位内,涉密文档是需要专门的计算机存储的,根据不同的密级分别存储在不同的目录下.如果涉密文档存储在一般的计算机上,可能会造成很多安全问题.因此,及时发现并管理涉
会议
本文以燕化公司与石油大学赵锁奇教授课题组共同完成的《丙烷脱沥青改造工艺条件》相关数据为基础,深入分析了各影响因素对脱沥青油收率的影响规律,发现脱沥青油收率与萃取温
超临界流体强制分散溶液(Solution Enhanced Dispersion by Supercritical Fluids,SEDS)技术以其特有的优点成为了引人注目的超细微粒制备方法,在医药领域展现出了广阔的应用
在《蒙特利尔议定书》中规定的HCFCs完全禁止使用的日期逐渐靠近、全世界提倡低碳环保的今天,世界各国科学家和技术专家将目光逐渐集中在天然制冷剂上。水(R718)作为一种完全
  极限学习机是近年提出的一种快速且具有良好泛化性能的单隐层神经网络学习算法。本文将半监督学习应用到极限学习机中,提出了一种半监督极限学习机分类模型(SSELM),但由于
会议
宿主免疫系统分为天然免疫(Innate immunity)和获得性免疫(Adaptive immunity)。天然免疫是非特异形式的免疫应答,是以识别和清除病原体为主的第一道防御屏障。天然免疫反应
摘要:随着新课程改革的不断深入,构建初中语文高效课堂成为了当务之急。在初中语文高效课堂的构建中,教师要构建融洽的师生关系、精心准备教学设计、教会学生课前有效预习。  关键词:初中语文 ;高效课堂; 新课程标准  一、引言  新课程理念要求我们构建高效课堂,所谓“高效课堂”,是指教育教学效率或效果能够有相当高的目标达成的课堂。那么如何打造初中语文高效课堂呢?提高语文课堂教学实效性的途径,既有教师方面
  Fruits are rich in phenolic compounds and exhibit high antioxidant activity.Recent studies have shown that wounding caused by cutting and some post-cutting
会议
  特征选择旨在降低待处理数据的维度,剔除冗余特征,是机器学习领域的关键问题之一。现有的半监督特征选择方法一般借助图模型提取数据集的聚类结构,但其所提取的聚类结构
  为有效识别与管理机会,依据认知信息加工论,参照认知活动的过程特性,认知情境模型和注意的信息过滤器机制,本文提出了由私有视图获取、私有场景构造、场景融合、场景泛化与场
会议