基于Spark的密度聚类算法并行化研究

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:wr123456789dtdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析目前是数据挖掘研究领域中热门的研究课题,DBSCAN算法则是聚类分析中较为重要的一种基于密度的算法。Apache Spark扩展了广泛使用的MapReduce计算模型,提出了基于内存的并行计算框架。通过将中间结果缓存在内存中减少I/O磁盘操作,使其能够更高效地支持交互式查询、迭代式计算等多种计算模式。为了更好地进行大数据聚类挖掘,研究如何对基于当今主流的大数据处理框架Spark对DBSCAN算法进行并行化。设计了基于Spark的DBSCAN算法并行化方案,通过合理利用RDD和设计Sample算子、
其他文献
采用聚丙烯酰胺凝胶垂直板电泳方法,对喜鹊(Pica pica)雌雄个体的血清蛋白进行分离分析。结果表明,喜鹊雌雄个体共分离出电泳迁移率0.852~0.031的20条谱带,雌、雄性个体分离
年仅35岁的薛国华,从1998年开始从事庭院种植养殖业以来,从一间猪舍、两个温室起家,发展到肉鸡、蛋鸡、肉牛、奶牛、猪、羊、鱼综合饲养和蔬菜蘑菇生产、豆腐加工等多种经营,
时下,兵团许多农牧团场实行了整连建制租赁承包。租赁承包作为一种较为有效的承包模式,被团场采纳和运用。它实现了风险同担、利益共享,极大地调动了基层干部工作积极性和责
本文提出了垂直旋转货架系统在医院药房中的应用即智能存取系统,实现了上药、储药和出药的智能化,有效地提高了药品发放效率和准确率,减轻了劳动强度,完善了药房智能化管理,满足医
中国工会十三大提出的今后五年工会工作必须遵循的指导方针,是对"以贯彻实施《劳动法》为契机和突破口,带动工会各项工作,推动自身改革和建设,努力把工会工作提高到一个新水
一年育肥牛羊500头(只),收入10万多元。农四师七十一团淀粉厂工人林国民下岗没有气馁,采用股份制,发展庭院养殖业,通过辛勤劳动和科学管理,走上了致富路。目前,林国民与他人
目前,一场批驳"法轮功"祸国害人的政治斗争正在全国城乡深入开展,我们各级党组织、工会组织都要旗帜鲜明地站在第一线,剖析实质、抓住要害、举一反三。一是要切实加强舆论引
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
有别于同时代的斯拉夫派的和西方派,俄国根基派是独特的"第三条道路",它在另两派思想中吸收合理的因素为己所用,批判其中它认为不适合俄国国情的主张与倾向。以作家兼思想家
<正>【学习目标】1.探究凸透镜成像的规律;2.掌握科学探究的方法.3.乐于参与观察、实验、制作等科学实践.学习重点:理解凸透镜成像规律预习内容:【课前预习】实验准备:1.测定