基于分布式数据流的大数据分类模型和算法

来源 :大东方 | 被引量 : 0次 | 上传用户:angel5tears
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:大数据在目前的社会生活中被广泛的应用,但是随着数据的急剧膨胀,已有的技术在数据分析方面已经具有了局限性,所以需要研究新的方法和技术实现对大数据的分析。从当前的研究分析来看,大数据应用的两个主要技术特征是分布式和流动性,所以以分布式数据流为数据表达载体,在此基础上设计对应的大数据分类模型和挖掘算子,这样可以有效的构建解决问题的对应算法,解决现实数据分析中的难题。文章基于分布式数据流做大数据分类模型和算法的研究,旨在为大数据分析提供指导和帮助。
  关键词:分布式数据流;大数据;分类模型;算法
  大数据在当前的生活中利用非常广泛,其在各行各业的发展中起到的积极的作用,所以就大数据的分析和应用,各个国家都十分的重视。我国就大数据进行了分析和研究,使得大数据在产业结构调整方面发挥出了积极的效用,但是因为现阶段的数据急剧膨胀,原有的数据算法和处理技术难以满足实际需要,因此需要对大数据的具体利用做创新。基于此,讨论分布式数据流的大数据分类模型和算法有较为显著的现实意义。
  一、大数据的分类模型
  从具体的分析来看,具有分布式和流动性为主要技术特征的大数据分类模型可以定义为M=,其中的T指的是收集数据的时间点序列,D是依据T在局部节点上收集的N条局部数据流组成的分布式数据流。是数据挖掘的数据源。O是对D的操作算子集,P则是全局分类器。依据此定义,大数据的分类模型可以通过两个步骤进行构建:其一是利用局部挖掘器进行数据微簇集的挖掘。其二是做全局挖掘器的利用。通过这两步的进行可以构建大数据的基础分类模型,有了明确的分类模型,数据计算会更加的准确。
  二、算法设计和分析
  基于大数据的分类模型做具体的算法设计和分析,这样会更加准确的理解算法设计的理念,从而在实际运用中更好的利用算法进行数据分析。
  (一)局部节点的微簇抽取算法
  首先,基于大数据的分类模型所设计的第一种算法为局部节点的微簇抽取算法。此算法具体指的是当一个局部节点的当前数据块被收集完成后,接下来的工作就是对其进行微簇挖掘。整个挖掘的过程有两步:其一是对当前的数据块进行微簇划分。在划分的过程中需要对大数据的分类挖掘特点进行考虑。如果分类过程中出现了类别标识不明显的情况,可以采用比较经典的无监督学习算法实现数据的聚类。其二是对聚类得到的数据微簇抽取,这个工作的具体进行需要对每个类簇的数据做相应的统计值抽取。通过上述的两个步骤实现对局部节点数据的计算,这样可以就大数据的具体利用提供依据。
  (二)局部节点的增量式微簇抽取算法
  其次是局部节点的增量式微簇抽取算法。从具体的分析来看,在挖掘时间点不断变化的情况下,一个局部节点维护的微簇集合需要做及时的更新,这样,其才能够适应新数据的变化,依据现阶段利用的增量式方法,对局部节点的微簇进行维护意味着利用当前数据块获得的微簇集合对上次挖掘点维护的微簇集合进行增量式更新。需要注意的是,作为局部节点的局部模式,一个节点上所维护的微簇模式中的微簇数据必须要进行适当控制,不能使其在时间变化的情况下无限制的增长,至于具体的控制,可以做阈值参数的设置,利用参数做控制,微簇的数据量能够保证在可控范围内。
  (三)中心节点的样本重构算法
  最后是中心节点的样本重构算法。对数据挖掘的流程做具體的分析可知,在一个挖掘点上,当一个局部节点的微簇模式被更新完成后,其会通过网络传输到中心节点上,当所有局部节点的当前微簇模式都被传送到中心节点的缓冲迟之后,中心节点会启动全局模式进行挖掘工作。为了对全局模式的预测能力和抗干扰性先进性提升,可以利用集成分类器做全局模式。在这种模式下,微簇模式不能够作为直接的学习样本被使用,所以需要对此问题做解决。从实际研究的结果来看,利用局部节点传送过来的微簇模式进行重构,以此达到全局学习样本的使用要求,这样,全局模式的使用难题得以解决。总之,利用中心节点的样本重构算法也能够实现对大数据的有效计算。
  结束语
  综上所述,在大数据利用实践中,随着数据信息的膨胀,现有的技术处理手段和方法已经不能满足于数据处理实践的需要,因此需要利用全新的技术和方法做大数据计算。基于大数据计算分布式和流动式的主要技术特征做大数据模型的具体分析,并在模型基础上讨论算法的设计,这可以为数据计算实践提供帮助。
  参考文献
  [1]谈海宇.面向大数据的流分类挖掘算法及其概念漂移应用研究[D].南京邮电大学,2016.
  [2]陆元福,彭天慈,季开洋,等.基于Storm平台的流挖掘算法及抵抗概念漂移系统的设计与实现[J].电脑知识与技术,2016,12(9):11-13.
  [3]李召希.基于MR的分布式数据流计算引擎研究与实现[D].中国科学院大学,2016.
  [4]韩德志.2016BIGDATA351大数据环境下的分布式数据流处理关键技术探析[J].计算机应用,2016.
  (作者单位:青岛酒店管理职业技术学院)
其他文献
摘 要:在市政基础设施建设的过程中,市政给排水系统成为了其中不可忽视的一项内容。通常情况下,对市政给排水工程进行科学合理的设计是保证城市规划资料有效利用的重要基础和前提。同时,其也保障了城市的可持续发展,迎合了战略性的规划设想和标准。但是,从当前我国的市政工程给排水施工现状层面出发,其中出现了很多问题,这些问题的存在均严重影响了市政工程施工的进程和最终质量。在很大程度上也导致市政工程建筑的质量越来
期刊
摘 要:某公路通车15年来,路面出现了较为严重的病害,行车道路面损坏较多,通过对旧混凝土路面的全面调查,总结旧路面出现的不同病害情况,并提出了相应的修补措施。工后观测表明,旧路面得到了较好的处治,说明修补措施是可行、有效的。另外,根据本工程的实际破坏状况及室内外试验,提出了合适的加铺层结构,确定了加铺层的厚度、材料,并进行了加铺层防止放射裂缝的设计。  关键词:水泥混凝土路面;沥青加铺层;补强设计
期刊
摘 要:在这个信息爆炸的时代,电视字幕越来越多地被广泛应用到电视屏幕之中,不仅内容丰富,而且类型多样。在类型多样的字幕语言中,滚动字幕极富特色,在各类节目中极为常见。本文试图对滚动字幕的分类、语言特点、作用、制作等问题做一些初步的探索。  关键词:滚动字幕;概述;分类;语言特点;作用;制作  一、滚动字幕概述  所谓滚动字幕,是指独立于有声语言和画面之外,依附于电视屏幕,是节目播出阶段插入的文字信
期刊
摘 要:伴随城市化建设进程不断加快,各种工民建项目数量不断增多,工民建项目规模不断扩大,社会对于工民建项目提出更为严格的施工要求及施工标准,客观上要求相关施工单位以落实工民建项目质量管理流程为前提条件,结合节能环保主题及诉求,制定相应的施工管理方案。本文以工民建项目为切入点分析应用绿色施工管理模式的必要性,就提出具体的应用要点进行深入探究,旨在为相关从业人员积累更多的工作经验。  关键词:工民建项
期刊
摘 要:蔬菜生产作为我国农业生产体系中的重要组成部分,随着近年来我国农业产业结构的调整以及农业种植技术的创新发展与应用取得一定发展成效。有机蔬菜栽培技术的应用一方面能够保护生态环境,并且可以在此基础上实现我国农业的可持续发展。因此通过发展有机蔬菜就能够为我国人民群众提供更加安全和优质的蔬菜,故具有重大的探索价值与现实意义。  关键词:蔬菜;有机栽培;栽培技术  一、有机蔬菜栽培技术探究  有机蔬菜
期刊
摘 要:介绍了滑坡监测中点的分类、基准网和监测网的设计原则,并着重对不同地质条件下采取何种监测方案以及在特殊部位加密测线等内容进行了详细论述。  关键词:变形观测;基准网;监测网;布设方案  1滑坡监测中点的分类进行变形监测的平面控制网多数是小型的、专用的、高精度的,这种网由三种点、两种等级的网组成  1.1基准点:通常埋设在比较稳定的基岩或在变形影响范围之外的区域,并且尽可能长期保留,保持其稳定
期刊
摘 要:建筑工程项目施工作为项目质量形成的关键环节,此过程中质量控制的好坏将对建设项目质量产生决定性的影响。其质量不仅关系到项目投资的成功与否,而且还直接关系到国家和人民的生命和财产安全。  关键词:工程施工;施工方案;质量管理  建设工程项目质量是关系到国家的经济建设和民生工程的重大问题,如果工程质量满足不了使用要求,本身就是很大的浪费,更是造成工程质量事故的隐患所在。建筑工程项目从立项、规划、
期刊
摘 要:工程档案是工程建设过程和建设成果的真实反映,文章对工程技术资料管理中存在的问题进行了分析,并就搞好工程技术资料管理方面提出了相应的改进措施。  关键词:建筑工程;管理  工程技术资料是工程建设过程中形成的原始记录,是建筑工程管理的重要组成部分,因此,如何加强建筑工程技术资料管理工作是提高建筑工程质量的一项非常重要的工作。目前建筑工程技术资料管理存在问题主要有以下几方面:  1闭门造车“做资
期刊
摘 要:随着社会的发展,我国已经迈入到了信息化时代,信息化技术已慢慢渗入到国家机关、政府事业单位、工商业公司管理和民众的日常生活中。虽然,多方实践证明信息化技术的优势明显,但是,我国仍然有一些事业单位还未能将信息化技术运用到图书资料的管理工作当中,导致相关工作效率低下。本文首先具体分析图书资料信息化管理的重要性及可行性,然后又详细研究和讨论图书资料管理方面的诸多问题以及大数据背景下图书资料信息化管
期刊
摘 要:对于35kV不接地系统来说,一旦发生两相异地接地短路故障,那么会严重影响到电力系统的运行,因此如何对电力系统进行有效保护,避免故障发生是目前需要解决的一个问题,当前针对于两相异地接地短路故障,主要是通过微机综合保护系统来进行保护,因此本文通过对微机综合保护系统的分析,探讨了如何解决35kV不接地系统两相异地接地故障问题。  关键词:两相接地;短路;故障  1.引言  根据相关部门的数据统计
期刊