基于Spark的聚类算法优化与实现

来源 :现代电子技术 | 被引量 : 0次 | 上传用户:damai123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘中,针对聚类过程中数据存在的稀疏性问题,如果仍用传统的欧氏距离作为聚类指标,聚类的质量和效率将会受到一定的影响。受到信息论中KL散度的启发,文中提出一种基于Spark开源数据框架下利用KL散度的相似性度量方法,对目前使用的聚类算法进行优化。首先,通过预聚类,对数据的整体分布进行分析;然后,借助KL散度作为聚类的距离指标,充分利用数据集中元素提供的信息来度量不同数据集的相互关系,指导数据的聚类,在一定程度上改善了数据分布稀疏性的问题。整个过程基于Spark分布式数据处理框架,充分利用集群的能力对数
其他文献
图像增强在图像处理中有着重要的作用,常用方法有直方图均衡化和灰度值线性拉伸法等,但是这两种方法对图像质量的改善不甚理想。因此,文中提出一种基于二次函数灰度值拉伸的图像增强算法,利用两段二次函数对图像进行灰度值自我调整,同时综合考虑图像对比度增强效果及硬件电路的易实现性,在Matlab上进行算法设计及仿真,在FPGA硬件平台上进行实现及验证。结果表明,所提算法能有效处理不同场景图像,处理后的图像层次
目的:探讨我国各类医院服务质量与效率的综合评价方法,从单指标与综合角度实证研究,分析差异性。方法根据不同类别医院资料进行单项服务质量与效率指标排序;分别采用TOPSIS法、灰
<正>长期以来,我国中学英语教学还是以教师讲授为主,这种传统的教学模式从根本上制约了教与学的效率与效果,无法改变"聋哑英语"和"耗时多、收效少"的问题。
面对日益严重的全球环境问题,推动低碳产业集群的建设已经成为可持续的必然要求,集群内区域创新系统的构建至关重要。结合国内外最新发展趋势构建低碳产业集群的区域创新系统
几年前,笔者有幸参加了一次由教育部中学校长培训中心组织的香港、台湾教育考察活动。在活动中,我首次接触到了“全人教育”,这一全新的教育理念深深地吸引了我。回校后,我专门对“全人教育”的起源和发展做了详细地了解,在此过程中,我慢慢地接受了“全人教育”理念,并逐步在学校探索和实践起来。  “全人教育”的起源和发展  完整的“全人教育”理论体系是由日本教育家小原国芳创立的,“全人教育”理念贯穿其教育思想的
为了确保LNG动力汽车的安全稳定运行,提出一种基于GPRS无线传输的车载LNG气瓶监测系统。该系统以STC51单片机为主控芯片,主要设计甲烷浓度采集电路、温度采集电路、LCD显示电