基于云计算的大数据挖掘内涵及解决方案研究

来源 :科技风 | 被引量 : 0次 | 上传用户:c566178
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在网络信息时代,数据信息量越来越丰富,深入挖掘大数据内在价值,充分彰显数据优势有利于促进我国社会发展,同时,有利于提升科学技术水平。本文首先对大数据挖掘做了基本介绍,然后分析了云计算基础下的体系结构,最后探究了分布式文件系统的大数据挖掘平台的优劣势和解决方案,希望能够为相关用户提供指导。
  关键词:云计算;大数据挖掘;体系架构
  现如今,数据信息借助網络平台大量出现,并且增长速度明显提升,大数据发展过程中面临机遇与挑战并存的状态,要想提取迎合用户需要的价值信息,应首先了解大数据挖掘内涵,在分析问题、解决问题的基础上提高大数据应用价值。由此可见,本文针对这一内容展开分析,具有一定的现实意义。
  1 大数据挖掘基本介绍
  (1)背景介绍。
  随着科学技术的不断发展,所产生的数据信息以及被用户需要的价值数据量均有所增加,数据挖掘受时代影响显著,传统挖掘存在方式单一、层次尚浅等不足,相对来说,大数据挖掘更应迎合时代发展需要,大数据挖掘在先进信息技术、互联网的影响下应运而生。现如今,大数据挖掘仍需借助先进技术、云计算持续发展。
  (2)处理对象。
  大数据挖掘处理对象不同于传统数据挖掘,其中,前者要管理多种信息系统的数据信息,后者仅需管理特定范围以及特定信息系统内的数据。前者具有信息丰富、数据来源广、信息类型多样等特点,但对数据准确度要求较低,后者不同于前者,即数据源少、采集方式较被动、采集范围较局限、数据准确度较高。
  (3)挖掘程度。
  大数据挖掘主要借助网络优势完成数据处理和分析,挖掘范围较广泛、分析较深入,相对来说,传统数据挖掘仅对限定范围内的数据信息予以分析,因此,数据类型较单一、数据范围较局限。此外,后者处理、分析数据信息的过程中易受功能限制。从中能够看出,大数据挖掘在云计算等先进信息技术的辅助下,更能明确分析目标,同时,还会优化数据分析效果。
  2 体系结构分析
  (1)云计算。
  在云计算时代背景中,传统数据挖掘受系统结构、处理方式影响,存在数据分析长时、高成本以及复杂空间度等问题,此外,还存在系统拓展不足、挖掘效果低质、用户体验效果差等问题,这与当今用户要求的智能化、及时性、快捷性不符。大数据挖掘在这一时代背景中能够借助分布式文件系统优势实现数据的高效、简单和快捷化处理。部分企业以云计算为基础,制定了大数据挖掘有效处理方案,例如,雅虎在分布式文件系统基础上开发了Pig;微软整合分布式文件系统与Windows Azure,同时,优化集成商务软件BI,以此丰富服务种类,丰富挖掘功能;谷歌创造搜索引擎平台,以此实现大数据的有效性分析、妥善存储多数量小文件。虽然大数据挖掘处理问题差异性不是十分显著,但解决方案还需进一步深化,提高解决方案适用性[1]。
  (2)大数据挖掘架构。
  该架构主要组成部分为三层,第一层(内层)为支撑平台层,第二层(中间层)为功能层,第三层(最外层)为服务层。其中,内层主要为大数据挖掘提供有力支持,并且能够营造云环境、向外界供应丰富的数据资源、有效实施预处理。中间层即针对用户需求进行自动化分析,再次过程中,能够实现数据妥善存储。最外层能够向用户展示大数据挖掘结果,可视化特征显著。这三种架构模式互相影响,挖掘云即在三者共同作用下有效形成。
  3 基于分布式文件系统的大数据挖掘平台
  (1)数据预处理。
  大数据挖掘模式在后,数据在前,并且确定性模型能够在数据影响下不断变化,其中,预处理主要以综合技术为基础,具体包括数据流处理技术、远程采集技术、传统预处理技术、多模态实体识别技术等,在综合技术作用下,预处理综合功能能够有效实现。数据预处理过程中存在轻因果关系、重数据现象,存在轻数据完整性,重实时性现象,这也是大数据挖掘结果失准的主要原因。
  (2)数据存储。传统数据挖掘存储数据时,所涉及的系统主要有文件系统、数据仓库以及操作系统等,数据存储较被动,存储模式较单一。大数据挖掘存储在传统储存系统的基础上,增加了分布式存储功能,所存储的数据类型主要有三种,第一种即非结构数据,第二种为存储结构数据,第三种为半结构数据。存储方式主要有两种,第一种即混合存储,第二种为列存储。针对不确定数据有效存储时,能够充分发挥不确定数据管理技术、管理系统的作用,以此完成不确定数据存储活动。
  (3)数据分析。传统数据挖掘仅在少维数据分析中具备处理灵活性和分析准确性,对于多维数据的分析仅停留在浅层面。大数据挖掘针对数据计算、分析时,主要借助融合计算模式对其进行处理,对于大量维度、动态数据信息分析时,大数据挖掘能够在融合传统数据挖掘不足的基础上,针对性提升原有分析能力,同时,将分布式文件系统与传统挖掘算法有效结合、有效改进,以此优化数据分析质量。此外,还可以应用交互式分析方式对其进行内容分析,并提高挖掘语言利用率,充分彰显拓展性[2]。
  (4)数据显示。大数据挖掘在数据显示方面明显优越于传统数据挖掘,挖掘结果的呈现方式主要为图像式和动画式,用户观看的同时,还能对数据有效性分析。传统数据挖掘针对动态数据、多维数据显示时,可视化效果较差,并且因果关系不能直观呈现。因此,要想提升可视化分析效果,还应对交互挖掘、内存原位、系统可视化等技术深入研究,确保节点通信、可视化技术时效等问题被有效解决。
  4 结论
  综上所述,对比分析大数据挖掘和传统数据挖掘,后者在云计算时代中的应用率较低,并不能充分满足用户需要,反之,大数据挖掘能够有效弥补传统数据挖掘的不足,更能适应云计算时代需要,及时迎合用户及时、快捷、高效的信息需要。此外,本論文大数据挖掘还应进一步分析,制定合理的、高效的问题解决方案。
  参考文献:
  [1]王超鹏,梁正科,李强.基于云计算的分布式数据挖掘算法研究[J].硅谷,2012,04:104+92.
  [2]杨斐,艾晓燕,张峰.大数据精准挖据处理架构及预测模型研究[J].电子设计工程,2016,12:2932.
  作者简介:刘镇(1996),男,安徽淮南人,本科在读,研究方向:数据挖掘。
其他文献
摘要:《电工技术》课程中分析复杂电路的方法很多,对于含有多个电源的线性电路,我们可以采用叠加原理。本文主要研究了叠加原理的内容、解题分析步骤以及使用该原理的注意事项,对教员的理论教学有一定的借鉴意义。  关键词:叠加原理;解题步骤;应用分析  一、叠加原理的内容  在分析線性电路时,经常要用到叠加原理。在线性电路中,当复杂电路中有几个电源同时作用时,任一支路上的电流或电压,都可看成是由电路中各个电
在大数据及云计算时代,网络已经成为企业发展的重要平台。为了更好地满足业务的开展,降低IT系统的复杂性,提高网络性能、灵活性和可管理性,云计算已经进入实质的商业部署时期
平民DIY PK大师小创意
摘要:基础设施建设是城市发展的核心,其中地下管网更为关键,直接关系到城市规划、建设、管理和应急等内容。对地下综合管网实施科学管理必须构建综合管网的信息管理系统,以确保城市及经济社会发展的需要。本文以地下综合管网的核心技术为切入点来探讨其信息系统的设计及其实现。  关键词:城市地下管网;综合管线;系统设计  地下管网主要是指城市地面以下用于供水、排水、燃气、热力、电力、通讯、交通信号等用途的管线及其
目的观察巨噬细胞集落刺激因子(macrophage colony stimulating factor, M-CSF)对肺腺癌细胞株A549的作用。方法观察肺腺癌A549细胞形态的变化。M-CSF对体外培养肺腺癌A549细胞
根据《兽药生产质量管理规范》规定,依照《兽药生产质量管理规范检查验收办法》,经现场检查及审核,现批准济南联达畜牧科技有限公司等18家兽药生产企业为兽药GMP企业,湖南伟达生
目的:探讨阑尾周围脓肿急性期的手术治疗。方法:回顾性分析35例阑尾周围脓肿的临床资料。结果:35例阑尾周围脓肿于急性期行I期手术切除,均痊愈。结论:阑尾周围脓肿急性期I期
(1)池塘清整关。一般饲养1~2年就要清整1次。春季若未清整的,夏季高温期间最好清整1次。在清除残渣淤泥、暴晒3d左右的同时,每667m^2用75kg生石灰消毒,彻底消灭有害病菌。
结婚十几年了,我和丈夫的感情一直很好,可就在一年前,乡下的公公患脑溢血去世后,我们的关系骤然紧张了。丈夫由于他父亲的离世,深感“子欲孝而亲不在”的悲哀,对婆婆格外礼遇起来。