数据密集型计算环境下数据分类算法研究

被引量 : 0次 | 上传用户:sumriver
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据密集型计算随着大数据时代的到来受到了业界的广泛关注,而针对数据密集型计算环境下大数据的数据挖掘的研究却仍然处于起步阶段。目前针对数据密集型计算环境下数据挖掘的研究主要集中在如何利用大规模集群系统所具有的可伸缩性和容错性等优势,实现高效的数据挖掘和管理功能。本文首先阐述了数据密集型计算的特点和典型应用,讨论了数据密集型计算环境下数据挖掘的研究现状和传统分类方法,着重介绍了ID3、C4.5、CART、SLIQ和SPRINT等典型决策树算法和并行挖掘策略,同时也对Hadoop开源分布式系统架构这一分布式数据处理的最佳平台做了简要的介绍。本文提出了一种基于MapReduce编程框架和SPRINT算法的决策树分类算法MR-DIDC,结合MapReduce的优秀特性,使其更适用于数据密集型计算应用,然后以一个实例为基础介绍算法的运行过程,最后指出了算法的改进策略。MR-DIDC算法通过MapReduce编程框架的并行计算能力优化决策树节点扩展过程、最佳分裂属性选择及其分裂点计算和属性列表分割,提高算法的执行效率。MR-DIDC改进和引入了以下几种数据结构,分别为直方图、块计数矩阵、块哈希表和块直方图,通过改进策略提高算法的并行性能。属性列表的结构与SPRINT算法相同,用来记录属性取值和所属类标的对应关系,连续属性的属性列表需进行预排序。连续属性维护直方图信息,直方图为两行,分别对应Cabove和Cbelow,记录当前数据节点分裂点前后的类标数量分布;离散属性维护块计数矩阵信息,块计数矩阵的行数为离散属性值域的大小,每行表示当前数据节点该属性为某值时类标的数量分布;块直方图是算法引入的新型数据结构,用来记录每一数据节点的类标数量分布,辅助直方图简化分裂点的计算过程。分裂点的计算过程中,各数据节点间无需相互通信,可通过块直方图来获得全局的类标分布,减少各分片间互相通信而产生的I/O次数,有效的提高算法的数据可用性。块哈希表在节点扩展的过程中用来记录当前数据节点分裂点两侧的数据划分。最后通过实验对MR-DIDC算法的时间效率、可伸缩性、并行性、准确性等方面进行了测试。实验结果证明,MR-DIDC算法具有良好的可伸缩性和较高的数据可用性,当数据量很大时,在大规模集群上的运行时间将明显缩短。
其他文献
中国的经济随着改革开放的步伐取得了飞快的发展。作为国家最主要的财政收入,税收发挥着十分重要的作用。税收是政府财政收入的主要来源,其作用除了能够对国家的运转进行维持
随着我国经济的快速发展,运输行业也蓬勃发展。其中水路运输作为商品与货物的主要运输方式之一也日益繁荣。通过发展长江航运来缓解运输方面紧张局面,改善生态环境和调整生产
聚苯胺(RANI)与其它导电高分子相比,其结构多样化、电导率较高、掺杂机制独特、物理性能优异、环境稳定性良好,且原料廉价易得、合成方法简便,是当今导电高分子领域研究的热
目的研究沉积速度对IC10熔覆层显微组织、显微硬度的影响以及界面的结合特征。方法采用真空电子束填丝焊对IC10镍基单晶高温合金进行修复试验,采用XJP-2C型倒置光学显微镜观
飞机状态与发动机工作状态有着密切的联系,根据相关统计数据,飞机发动机80%以上的故障是由振动引起的,因此飞机上都配置振动检测装置,振动检测仪器的的精度对航空发动机的安
词汇的语义相似度计算是信息检索、自然语言处理、推荐系统等技术的基础。事实上,词汇可能因其语境或语料的不同,语义的相似度千差万别。论文通过提取词汇的上下文语境特征,
巴丹吉林沙漠是我国第三大沙漠,湖泊众多,微生物资源丰富。本研究利用Illumina Miseq高通量测序平台,结合Mothur、Canoco和R软件对巴丹吉林沙漠盐碱湖沉积物中细菌及古菌群落
<正>近年来,梨树县委、县政府为了提高农业的综合效益和竞争力,不断加大领导力度,采取务实举措,切实推进农业产业结构调整向纵深发展。工作中,重点扶持棚膜特色产业向基地化
以抗旱的长柄扁桃、抗旱中等的毛樱桃和抗旱差的光核桃苗为试材,研究水分胁迫条件下3种桃砧木叶水势、叶片丙二醛含量和保护酶活性的变化与抗旱性的关系。结果表明,干旱导致叶
运用文献资料、逻辑分析、调查访谈和数理统计等方法,对济南市城市社区老年人 的体育休闲方式开展研究.通过对城市社区老年人体育休闲的现状及成因分析,为日后 做好社区老年