最新大数据技术数据挖掘技术分析与应用算法研究

来源 :科技信息·下旬刊 | 被引量 : 0次 | 上传用户:ly6624
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:伴随着科学技术的不断发展,使得大数据技术数据库挖掘技术在不断的得到更新和发展,而且规模也是逐年上升的。因很多的数据不容易将隐藏的可以支持决策的信息内容进行分辨,同时传统常规的查询以及报表工具已经不能实现相关信息资料的挖掘需求,所以就必须要采取新型数据分析技术展开大量数据的有效处理。在这种形势下,数据挖掘技术产生了,其能够在高效的处理好各种数据的基础上,实现对潜在有价值知识内容进行抽取。在此次研究中,主要是对于最新大数据技术数据挖掘技术展开相应的分析,同时对于相关应用算法实施探讨。
  关键词:大数据技术;数据挖掘技术;应用算法
  数据属于知识的重要源泉,对数据进行收集其实就是为了得到大量的信息资料。伴随着数据的不断的增加,数据分析方法也会相应的获得到更新和与时俱进。目前很多的领域已经深刻的贯彻大数据挖掘技术理念,不仅提供给计算机产业众多的机遇,同时也产生了各种挑战。因为若想有效的进行大数据挖掘工作,就应该实施科学的数据挖掘应用算法。
  一、数据挖掘技术概况
  (一)数据挖掘技术的概念
  数据挖掘即为在数据集合中,将隐藏于数据内相关的信息进行自动化的抽取的一种非平凡过程,信息表现形式较丰富,即涉及概念、规则以及模式、规律等等。不仅能够辅助决策人员将数据的过去和现在的状态进行分析,找到隐藏的模式以及关联性,对将来能够出现的行为实施良好的预测。另外,数据挖掘的过程另一种称法就是发现知识的过程。现下的数据挖掘研究和开发总体水平是不高的,急需要应用更先进的诸如DBMS系统和关系模式、SQL查询语言等方法进行指导,使得应用数据挖掘技术更好的推广。当前,对数据挖掘技术的技术,主要的方向就是:找到数据挖掘期间可视化举措、发现语言形式化描述、研究基于网络环境状态中数据挖掘技术、重视提升开采各种非结构化数据等等。
  (二)数据挖掘的过程分析
  数据挖掘的过程具备完整性的特征,此过程为挖掘出大型数据内先前未知的、实用性较高的以及有效的信息内容,应用这些信息最终做出相应的决策以及丰富的知识。数据挖掘的过程、步骤主要如下图1所示。
  二、数据挖掘的基本分析方法
  对于数据挖掘来说,分析方法属于关键性的内容之一,只有采取具有科学性、先进性以及安全可靠的算法,才能够进行挖掘数据,并且将潜在的数据中相关规律进行发掘,以各异分析方法,对类型不同的问题实施解决和处理。当前,常应用到的数据挖掘分析方法较多,下面进行分别的阐述。
  (一)聚类分析法
  聚类分析主要就是经聚类分组数据对象的方式,构建起相应板块,把各种不具有规律性的数据,最终形成有关联的、有逻辑的分组数据。同时在分组数据内将存在一定价值数据内容实施抽选,并展开深入的分析以及利用。聚类分析法的应用也是相对广泛的,在统计学、心理学以及数据识别等领域中均具有良好的应用。
  (二)特征性数据分析法
  在信息化时代的发展中,网络数据已然发展为数据爆炸式的状态,具备非常广泛化的数据资源,同时普及的范围是相当之普遍。怎样做到科学合理的针对网络爆炸式数据展开有关特性的分类,是当前主要的整理分类数据的关键。同时,常存在诸多的举措为经计算机的途径,获得到数据分类的虚拟的,同时可以将数据之间具有的普遍规律性找到,进而实现分析数据主要特性,最终达到更好的分类成效。
  (三)关联性分析法
  通常情況下,数据自身是具有隐蔽性特征的,这时就很不容易采取普通数据分析法展开数据挖掘以及利用工作,所以就应该实施关联性分析的方案,展开科学合理的关联性分析数据信息内容,实现辅助人力进行分辨数据的工作。关联性数据分析法一般为具有一定的目的性特点,所在其在高精准度要求的信息管理工作中具有广泛的应用。
  三、大数据技术数据挖掘技术的工具和任务
  (一)数据挖掘技术的工具
  数据挖掘技术在不断发展的形势下,也不断的出现着新型的数据挖掘商业软件工具。数据挖掘的工具包含特定领域数据挖掘工具、通用数据挖掘工具两大种类。介绍两种相对常见的并且先进的数据挖掘工具:其一为QUEST。QUEST为一种多任务数据挖掘系统,提出方就是IBM公司的Almaden研究中心,能够提供给新一代决策支持系统应用和开发,更好、更优质的数据开采构件。QUEST系统的特征包括:具备专门从大型数据库上展开开采的职能,即涉及到的功能方面包括关联规则发现、时间序列聚类、递增式主动开采、决策树分类等;各开采的算法均存在近似线性计算复杂度,能够在数据中进行应用,不会受到数据库大小的权限;算法具有良好的找全性特征,也就是能够发掘出全部的可以适应指定类型的模式,而且能够提供给很多发现功能诸多的并行算法。其二为DBMiner,其属于多任务数据挖掘系统,提出方为加拿大SimonFraser,并且DBMiner前身为DBLearn。进行设计此系统的目标就是结合关系数据库以及数据开采两项指标,建立在面向属性多级概念基础上,获得到相应的知识。此系统特征也是较多的,包括的方面为:可以进行很多知识的发现,即发现关联规则、泛化规则、分类规则以及特性规则、演化知识等;全面的联系诸多形式的数据开采技术,涉及到面向属性的归纳、元规则引导发现等;达到建立在客户/服务器体系结构的Unix以及PC版本系统基础上的效果;可以采取交互式类SQL语言,即数据开采查询语言DMQL。数据挖掘的研究成果具有一定的逻辑特点,如下图2所示。
  (二)数据挖掘技术的主要任务
  数据挖掘技术的开采任务主要是包括四方面。第一种为,数据总结为浓缩数据,并且提供紧凑描述。数据挖掘为建立在数据泛化角度方面上,展开讨论数据总结的;作为非常关键的一种内容,分类发现发挥出的作用不言而喻。分类为采取分类器将数据库内部相关数据项,在指定类别中进行反映,最终预测未来的数据内容;聚类即为将一组个体遵循一定的规律进行划分类别,最终就是做到在同样类别个体之间,显著的减小差距,同时最大化的分离开不同类别个体间距;关联规则属于事物之间是否具有较大的可靠度以及支持度,对于关联规则来说,如果想做到有意义,就必须要具备具体的最小可信度、最小支持度两项指标。   四、数据挖掘技术应用算法的探究
  伴随计算机技术的大量的应用,以及日常管理工作中产生的大数据,迅速的达到高质高效的在不同形式数据以及有噪声大数据环境中进行数据内涵的分析,找到有用知识体系以及规律引领人们实施科学的预测以及决策非常重要,所以Apriori算法产生在这种形势下,在大数据挖掘其间成为一种先进的、新型的算法。Apriori算法属于挖掘布尔型关联规则的频繁项集迭代算法,于数据挖掘其间经很多的描述数据库方式,找到相应的候选集之后展开剪枝,也就是将具有非频繁子集候选集排除。经科学的设置最小支持度阈值,对于候选项不断的增长的数量展开有效控制,同时于大数据数据挖掘期间构建起更好的研究价值。
  (一)Apriori算法过程分析
  Apriori算法的实现原理就是采取逐层搜索的迭代方法,具体的实现过程即为:首先,对于事务数据库D展开扫描,得到支持度Ci的计算,进而获得Li即频繁项集集合;其次,就是连接步,其属于算法的自连接过程,必须要充分的保障一致于前项,同时严格的遵循关联规则展开合理的连接;接下来,为剪枝步,即主要为充分的维持任意一个频繁项集非空子集是具有频繁属性的,也就是如果存在候选非空子集并非频繁性的,那么其候选也一定并非频繁,所以可以排除掉;最后,经迭代扫描数据库D,将各项集支持度展开科学的计算,排除不符合要求的项集,经迭代循环的方式一直达到某值是空的状态,此时停止算法。Apriori算法如下图3所示。
  (二)Apriori算法改进
  分析显示,Apriori算法是具有弊端问题的。一方面就是在进行找到频繁项集、候选项集期间,均需对于数据库D展开扫描;另一方面就是,在具有非常复杂的事务数据库数据量情况下,构建起的频繁项集、候选项集数量均会相应的提升,所以很容易于分析检索大量数据库期间明显的降低Apriori算法效率,同时也能够相应提升计算机资源的占用开销。
  为对于Apriori算法实施良好的改进,积极的分析原理,应用实际算法时,生产实现处理候选频繁项目期间,在扫描事务过程中将无需的候选频繁级进行最先的删除,同时对于数据展开压缩,记录好事务数据库,就会相应的提升扫描的效率,并且有效的减少计算机资源的开销。当前,Apriori算法改进技术涉及到AprioriTid算法、基于采样算法(Sampling)、基于散列算法(Hash)、事务压缩技术等。
  (三)Apriori算法的应用情况
  当前,应用Apriori算法已经相对普遍。应用到教学质量动态检测和评价中:经数据挖掘,能够在大量学生对于教学评价数据内,将关联规则进行找到,并且将有关的课程教学效果同教师教学的状态的关联性实施探究,帮助推动提升教学的质量和水平;应用于电子商务交易方面,采取Apriori算法能够建立在网络实现电商交易期间,可以将客户的消费习惯以及能力、消费的群体等进行分析,提供给电商供应商更好的了解消费市场的途径,同时展开同客户之间的良性商务互动;应用于学生就业方面上,可以在人才培养模式有关的知识体系以及专业等海量的数据中,对于大学生的受教育程度、同社会就业的需求存在的关系进行分析,帮助大学提供给学生人才培养更好的依据;应用于动态网络舆情监控,经应用intemet平台实现实施的采集以及分析网络信息传输交互,对于网络用户信息进行了解,帮助政府获得网络舆情,对于客户依据进行提供。
  结语:
  面对传统常规的查询以及报表工具已经不能实现相关信息资料的挖掘需求状态,必须要采取新型数据分析技术展开大量数据的有效处理。在这种形势下,数据挖掘技术随即产生,其能够对潜在有价值知识进行抽取,应用价值巨大。
  参考文献:
  [1]李戈春,潘斌,丰雷.大数据分析在教学实践中的应用策略[J].课程教育研究,2017(44):213-214.
  [2]张佳,朱宇华.运用大数据技术推进节约型校园建设——以苏州工艺美术职业技术学院为例[J].高校后勤研究,2015(03):88-90.
  [3]李傳军.大数据技术与智慧城市建设——基于技术与管理的双重视角[J].天津行政学院学报,2015(04):39-45.
  [4]沈才俊,常云志,徐暑芬,李章林.大数据技术在科技项目评审过程中的应用现状[J].江苏科技信息,2016(34):28-29+34.
其他文献
摘要:城市建设的逐步加快可实现对科技发展的直观体现。基础建设是建筑工程不可缺少的组成部分,同时也在其中占据核心位置,工程的质量以及安全会受到基础建设的直接影响,所以我们需要针对建筑地基基础以及桩基础施工技术进行不断的加强。这也是现阶段建筑行业以及专业人员在实际作业中所面对的主要问题。首先,我们需要对土木工程中建筑地基基础以及桩基础施工中存在的问题进行客观分析,并针对其中存在的问题提出有针对性的措施
期刊
摘要:近几年,公司不断规范和加强各级消防管理工作,全面推进消防“四个能力”建设,全员消防意识普遍增强,公司内部抗御火灾整体能力有了显著提升。各单位消防建设标准、起点不同,消防综合能力存在区域内部、区域之间发展不平衡现象,针对不同区域特性设置不同的管理内容、要求,通过对各区域人员教育培训、预案流程设计、演练频次、消防器材管理、防火检查、隐患排查等内容标准化管理,提升了各区域消防综合实力。  关键词:
期刊
摘要:本文分析了采煤工作面上隅角瓦斯超限的种种原因,并提出了治理上隅角瓦斯超限的几种方法,详细介绍了各种方法的优缺点及发展方向。  关键词:工作面;上隅角;瓦斯超限;处理方法  一、采煤工作面上隅角瓦斯超限的原因分析  1、采煤工作面的通风方式  采煤工作面的通风方法主要有:“U”型、“Z” 型、“Y” 型、“W”型、“H” 型等多种,但我国绝大多数采煤工作面均采用“U”型通风方式。“U”型通风条
期刊
摘要:在電信运营业日趋激烈的市场竞争中,企业信息化已经成为增强竞争实力、使企业健康发展的重要保证。然而,目前电信运营商在信息化建设方面存在诸多问题,为此,作者就建设信息化推动体系的意义和组织转型过程、信息化推动体系的运作模式、信息化推动体系的管理、监督作用以及培训机制和人才培养等信息化建设中的重大问题进行了探讨和分析  关键词:电信运营商;信息化建设  背景  随着中国加入WTO和电信体制改革的深
期刊
摘要:本文以某项目欧式住宅单体工程为实例,对其外墙EPS装饰构件的工艺流程、进场构件的检验标准及安装技术等内容作了介绍,将EPS外墙装饰构件与传统水泥构件主要优势进行对比分析,同时提出了施工中应注意的一些要点。并根据工程实践经验和分析施工等方面给出相关构件的质量技术分析。  关键词:EPS构件;质量分析  1.引言  EPS是近些年来国内房地产行业普遍应用的建筑新型装饰材料,其可以按照住宅类建筑的
期刊
摘要:受到社会发展进程的推动公路施工数量在整体上呈现出日益增多的趋势,规模的不断增大也可实现对上述现象的直观体现,这对施工机械的使用提出全新的要求与挑战。传统的施工机械已经不能实现对时代需求与发展的满足,设备老化以及性能差是传统机械的明显缺陷,因此我们需要在工作中针对筑路机械进行合理的优化与改革。在实际分析作业机械磨损、疲劳以及变形腐蚀等过程当中可主要从作业环境着手,并且提出有针对性的预防措施。 
期刊
摘要:乡镇文化站是农村文化事业的主体阵地。他们组织开展各种民间文化活动,传达党中央的重要精神,是加强基层群众文化建设的桥梁。摘要:为了充分发挥乡镇文化站在基层文化建设中的重要作用,分析了目前乡镇文化站的管理现状,提出了加强基层文化建设的有效策略,以促进社会主义的发展。  关键词:乡镇文化站;基层群众文化;文化体系  引言  随着我国经济体制的不断完善,国民经济水平明显提高。目前,乡镇文化站的管理和
期刊
摘要:经济和科技的发展为人们的生活带来了极大的便利,在如今4G网络基本在国内普及的情况下如何高效的、快速的、低成本的去解决我國农村的广域覆盖问题是当前环境中我们需要研究的,同时也是当前LTE网络在进行发展的过程中最为重要的研究的课题之一。本文的主要内容就是针对现阶段国内外的低频4G网络资源的使用情况,从多个角度来对700M低频的LTE应用进行研究和分析,帮助其更好的发展。  关键词:700MLTE
期刊
摘要:高层建筑的广泛应用使得高层建筑安全质量成为了近年来热烈讨论的话题,而深基坑支护工作直接影响到高层建筑安全稳定,因此深基坑支护工作的重视是加强高层建筑质量的重要因素,由于环境原因部分深基坑支护施工质量较差,严重威胁高层质量的安全质量,所以就目前深基坑支护工作进行探究,并给出合理化的解决方案。  关键词:高层建筑;深基坑;支护;施工  随着经济的快速发展,人类对于居住环境的要求日渐提高,建筑工程
期刊
摘要:地形测量是中国的土木建筑行业的一项重要工作。这是对施工要点和施工方法的选择和改进的前提。随着现代科学技术的不断进步,测绘方法越来越多。由于设备误差或人员操作不当,测量结果偏离了真实值。简要介绍了地形测量的概况,并对不同测绘方法中存在的问题进行了探讨。  关键词:地形测量;测绘方法;问题;解决方法  1 引言  随着地理研究的发展和高新技术的不断涌现,地形测量技术也在不断更新。然而,由于各种因
期刊