并行聚类算法的研究与实现

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:wenping1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济和社会的飞速发展,各行各业的计算机应用变得非常普遍,积累了大量的历史业务数据,并且随着时间的增长,数据量还在不断的膨胀,面对这种海量数据,或者说是数据资产,传统数据挖掘算法难以满足对数据分析的需求。尤其是对于对时间有严格要求的数据挖掘任务,计算必须在“合理”的时间内完成。如地震后遥感卫星图的分析任务,如果在一个星期后才能得到结果,则早已经错过了黄金营救时间。对于天气预报来说,花两天时间来获取当地第二天精确的天气预报将使得这种预报毫无意义。传统的数据挖掘算法无法短时间内挖掘出结果,结合并行计算技术是解决问题的出路。为了解决这种海量数据的聚类问题,必须从理论上及算法上对并行聚类进行深入研究。   为了实现并行聚类,首先,研究了基于密度和密度可达聚类算法( ClusteringAlgorithm Based on Density and Density reachable,简称CADD)和基于密度和密度可达增量聚类算法(Incremental Clustering Algorithm Based on Density and Densityreachable,简称ICADD)的实现过程,分析了其并行的可能性,在此基础上,对这两个算法进行了改进:第一,改进密度和半径计算算法,避免多次遍历数据库;第二,在Linux平台下C语言编程实现了对BMP图像实验数据进行预处理。   其次,在CADD和ICADD算法改进的基础上,提出了基于密度和密度可达并行聚类算法( Parallel Clustering Algorithm based on Density and adaptive Densityreachable,简称PCADD),主要研究了两方面的内容:(1)在基于数据并行的聚类算法下,聚类结果受进程数量的影响,聚类效果不是很好;(2)根据该算法的特点,设计了任务和数据结合的并行聚类算法后,聚类效果很好,与CADD聚类结果一致。此外,还分析了等量划分数据和根据负载动态划分数据方式的优点和缺点。   理论和实验结果证明该算法具有接近线性的加速比,能够有效的处理大规模的数据集。
其他文献
随着经济的快速发展,我国的环境污染问题日益突出,特别是近几年连续的雾霾天气,严重影响着人们的身体健康和生活,引发人们对大气污染问题的高度重视,加强对环境的监测和污染
互联网金融(Internet Finance)是指传统金融机构或者互联网企业利用互联网等信息技术实现资金融通、支付、投资和信息中介等服务的新型金融业务模式。互联网金融是目前金融科技(Fintech)领域的重要形态之一。相比于传统金融,互联网金融具有效率高、成本低、范围广、操作方便等优势。但是,互联网金融的模式也在一定程度上造成了金融市场门槛降低,市场流动性增大,以及监管困难等问题。近些年,互联网金
随着互联网的大规模普及和信息化程度的不断提高,文本信息成几何级数不断增长,人们已经置身于信息的海洋之中。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到
学位
电力通信传输网是国家电力系统的一种专用通信网,提供重要的业务传输作用,为电力系统提供支撑和保障。为了保证电力通信传输网安全可靠运行,本文对电力通信传输网的风险控制进行了研究。首先通过分析电力通信传输网中现有的安全问题,采用定性与定量分析结合的层次分析法进行风险评估,建立完善的指标体系。初始指标体系中可能存在冗余属性,导致资源的浪费甚至直接影响着决策规则的有效性。所以本文进而采用基于属性重要度的粗糙
近年来,垂直微博平台的兴起,为垂直行业的信息交流带来了很大的方便。但就目前来讲,面向垂直领域的大量有用信息资讯仍隐藏在互联网上的海量数据中,用户需要在不同数据源间切
综合了无线通信技术,嵌入式计算技术,分布式信息处理技术和传感器技术的无线传感器网络(Wireless Sensor Network,WSN)能够协作地完成信息的实时监测、感知和采集,并对这些信
大型企业经过多年发展,其IT部门往往产生了大量体系结构相对独立、缺乏统一规划的遗留信息系统。将这些系统中的知识进行有效集成管理,可以节约企业资源,提供增值服务,对企业意义
随着因特网的高速发展,当今网络安全形势日趋严峻,木马、病毒等网络入侵对网络安全构成了严重威胁,隐私及敏感信息很容易在未经授权的情况下被泄露或窃取。具有较高网络安全
现阶段国内各种工业自控环境中应用的高精度智能型压力或差压变送器几乎是国外品牌。原因是国外的数字智能式变送器采用了先进的检测技术,消除了潮气、粉尘及其它现场恶劣环
设计模式是对在软件开发过程中经常遇到的设计问题的可再现的解决方案。它使设计人员可以更加简单地复用成功的设计方法和体系结构。在软件设计和开发中,恰当地应用设计模式,有