基于大数据系统和分析技术的研讨

来源 :现代经济信息 | 被引量 : 0次 | 上传用户:wlq8201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着科技的发展,先后出现了大数据系统和分析技术,并且在逐渐进步与成熟。现根据每种数据不同的处理形式、自身特点、运用场景以及各自典型的处理系统,特别地介绍了大数据系统未来发展的主要方向,并对大数据分析技术和应用做出了详细评述,以及概括了在大数据分析技术中占主导位置的多种技术。另外,本文还总结出大数据系统处理和分析技术方面存在的问题、机遇和挑战,并根据问题提出一些切实可行的方案和措施。
  关键词:大数据系统;分析技术;研讨
  中图分类号:TP391 文献识别码:A 文章编号:1001-828X(2016)021-000-01
  一、前言
  最近几年,大数据在迅猛发展,成为社会各界关注的焦点。那究竟何为大数据,人们仍莫衷一是。若站在微观世界的角度来看,大数据是连接物理世界、信息空间、人类社会的纽带;若站在信息产业的角度来看,大数据是新型信息技术产业高效的催化剂;站在社会经济角度来看,大数据是第二经济的关键产业和核心支持,是推动第二经济快速发展的永久动力。另外,美国政府称大数据是“未来的新石油”,一个国家所能拥有大数据的规模和对大数据处理的能力是衡量国家综合国力的重要指标之一,预计大数据将成为各个国家相互争夺的对象。显然,大数据的时代到来了。
  面对大数据处理和分析技术方面的机遇和挑战,Google、Facebook等各大互联网企业不断努力和研究,现已开发出多种新型的大数据处理系统,并广泛运用于社会多个领域。本文主要介绍了多种大数据处理方法以及讲述一些具有代表性的处理系统,再指出深入探索、热爱学习、善于计算等对大数据分析技术的重要性,最后总结在大数据处理和分析中所遇到的重大挑战,并对此提出有效的解决措施。
  二、大数据处理与系统
  目前,对海量数据处理的要求是我们面对的重大挑战之一。处理形式包括3中,分别为批量处理静态数据、实时处理在线数据。以下,将对其分别分析和介绍。
  (一)批量数据处理系统
  大数据的批量处理对实时性的要求还不算太高,适用于先储存后计算,但是对数据的准确性和完整性要求非常严格。
  1.批量处理的特征与典型运用
  批量数据特征。批量数据主要有三个特征。一是数据量庞大,数据很少更新,储存时间长,不容易备份和转移。二是数据精确度高,这是由于数据是人们长期归纳总结下来的宝贵经验,是无形的财富。三是数据价值密度低,处理时间耗时长。对视频批量处理的过程中,需要处理大量的监控,但有价值的视频只有一两秒,这样就降低了效率。另外,如果处理后没有达到或偏离了预期的效果,这就会浪费更多的时间。综上所述,批量处理数据适用于有能力的、成熟的各大企业。
  典型运用。数据处理广泛运用于各行各业,物联网、互联网、车联网等无一例外,以下主要介绍三个领域。在互联网领域,批量数据处理的典型应用是社交网络、电子商务、搜索引擎。其中,社交网络的数据主要是以新浪微博、微信等下载的图片、文字、音频等;电子商务在历史记录、商品描述、商品评论方面产生了较多的数据。在公共服务领域中,批量数据处理的典型运用主要是能源和医疗保健。其中,能源可以是地震时来自地球深处的能源,再进行收集整理,就可以知道地下的储煤量。
  2.代表性的处理系统
  2006年,基于前人的经验,Hadoop完成了两个引起超大反响的产品:HDFS和MapReduce。这也使它们一跃成为大数据批量处理的代表性处理系统。Hadoop是随着IT主流发展应运而生的产品,后来把HDFS和MapReduce.Hadoop当作其基础,加以发展并建立多个项目,形成了自己稳定的Hadoop生态体系。
  最受欢迎的系统莫过于MapReduce编程系统了,其主要原因有:MapReduce系统是大规模集群系统,并且MapReduce系统结构简单、便于操作、容易理解。另外,最主要的一点是它有良好的数据护理性能。
  (二)流式数据处理系统
  流式数据处理起源于服务器的实时采集,是Google2011年在实时处理数据时开发的系统,引领人们向数据实时处理迈进。
  1.流式数据的特征及典型运用
  流式数据的特征。流式数据最主要的特征就是元组带有时间标签,且同一个流式数据在处理的时候有先后顺序。另外,流式数据的产生是实时的、无法预测的,因此数据往往是处于动态变化之中。
  典型应用。同样,流式数据广泛地运用于社会多个领域,但典型的应用主要有一下两个:数据采集运用、金融银行业的运用。其中,银行在工作中会产生大量数据,这些数据时效性短,因此需要采用流式数据处理,以便银行进行实时决策。
  2.代表性的处理系统
  随着流式数据处理的不断发展,极具代表性的系统主要是:Twitter 的Storm、Linkedin 的Samza、Apache 的 Spark以及Facebook 的 Scribe。
  三、大數据处理和分析面临的机遇与应对措施
  虽然大数据是人们关注的热点话题,但其中也存在不少漏洞。正确地解决这些漏洞,正是时下面临的机遇之一。
  (一)数据复杂性带来的挑战
  数据复杂主要表现在形式多样、关系复杂、质量差异较大等,这使得数据的收集整理、计算理解难度加大。但是,目前人们还不了解大数据复杂性的内在原因,且对大数据的分布与联系也认识不到位,这就使设计大数据计算模型受到限制。由此可见,能更深层次地研究大数据是首要解决的问题,可以通过掌握大数据复杂性规律,简化大数据以便更好地进行大数据计算模型的设计。
  (二)系统复杂性带来的挑战
  系统复杂主要表现在计算复杂度高、任务周期较长、实时性要求高等,这些给大数据系统带来了结构、计算框架、处理方法等的挑战,另外对系统的计算效率、单位效能提出了更严格的要求。因此,要把握好因系统复杂带来的挑战,最终设计一个数据获取速度快、数据存储耗能低和数据计算效率高的优秀系统。
  四、总结
  在互联网、物联网飞速发展的时代,大数据不断吸引人们的眼球,成为人们所关注的焦点。大数据的时代已经到来,我们应紧跟时代的步伐,不断学习探索、勇于计算创新、积极应对挑战、完善数据处理系统以及提高数据分析技术,努力开创大数据处理和分析的新纪元。
  参考文献:
  [1]李有为.大数据系统和分析技术的开发[J].计算机技术,2013(21):56-58.
  [2]陈浩.中国大数据技术研发进展[J].科技前沿,2014(33):87-89.
  [3]刘欣如.基于阿里巴巴大数据技术的分析[J].大数据技术与商业化,2013(54):12-14.
  作者简介:张 磊(1984-),男,汉族,河北石家庄人,研究生,石家庄邮电职业技术学院,助理工程师,研究方向:大数据。
  杜冬梅(1969-),女,汉族,河北石家庄人,工程硕士,石家庄邮电职业技术学院,高级工程师,研究方向:数据库。
其他文献
黄先生原本患有慢性肾炎,他的儿女特别孝顺,逢年过节都带来很多高蛋白的营养品,有一段时间黄先生每天都用温水冲调一大杯高蛋白营养品,甚至就把它当奶粉喝。可没想到的是,正
肿瘤是一类常见病、多发病,其中恶性肿瘤是目前危害人类健康最严重的疾病之一,在我国,随着人口老龄化,肿瘤发病率和死亡率都呈增长趋势.近年来细胞外基质蛋白periostin备受关
目的:探讨健康教育图应用于2型糖尿病患者健康教育的效果.方法:将40例患者随机分为观察组与对照组各20例.两组均采用甘精胰岛素治疗.对照组采用健康讲座与座谈会的形式了解患
本文在深入分析辽宁省城镇居民消费结构的历史变迁及现状的基础上,建立多元回归方程研究居民消费结构的内在关系.研究结论表明:目前辽宁省城镇居民消费支出结构仍然存在食品
目的:探讨参脉注射液联合阿托伐他汀治疗冠心病慢性心力衰竭的临床疗效以及用药安全性,为该类疾病提供用药指导。方法:我院在2011年1月至2012年6月共住院治疗冠心病慢性心力
期刊
进入新的历史时期,邓小平在人民大会堂正式单独会见的第一位香港同胞是查良镛--金庸.rn那是1981年7月18日上午,邓小平以中共中央副主席的身份会见香港社的创办人和社长查良镛
世界卫生组织最新数据显示,40岁以上的人,慢性肾脏病患病率约为7%~10%,不亚于糖尿病和高血压的发病率,成为威胁全世界的主要疾病之一。目前全世界已有100多万人靠透析生存,并
为了解我国职业发展的组织与制度关系,本文通过文献分析法对我国的单项运动项目中心与运动项目协会进行探究。中国职业体育的目标仍然是满足地方政府的争光需求,所以在本质上