大数据分析

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:hb524656810123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:移动互联、社交网络、电子商务极大的拓展了互联网应用的疆界和领域,高速发展的互联网,充斥着海量的各种类型的数据,能够从大量的数据中迅速的收集、处理自己需要的数据,并对这些数据进行高效率的管理,是适应大数据时代必须要迎接的挑战。
  关键词:互联网;处理;大数据;挑战
  中图分类号:TP311文献标识码:A文章编号:1007-9599 (2013) 07-0000-02
  1大数据时代的来临
  从《纽约时报》网刊的文章起,“大数据”逐渐渗透到我们日常的生活中。文章指出,“大数据时代”已经降临,并对各个领域都造成影响,在商业、经济及其他领域中,决策行为将日益基于数据和分析而作出;在公共卫生、经济发展和经济预测等领域中,“大数据”的预见能力也已经崭露头角。对“大数据”予以如此高的评价,主要源于它的四个特征:
  (1)容量大(Volume Big)。数据量已经从TB(1012字节)发展至PB乃至ZB,可称海量、巨量乃至超量。(2)多样性(Variable Type)。数据类型繁多,愈来愈多为网页、图片、视频、图像与位置信息等半结构化和非结构化数据信息。(3)生成速度快(Velocity Fast)。数据流往往为高速实时数据流,而且往往需要快速、持续的实时处理;处理工具亦在快速演进,软件工程及人工智能等均可介入。(4)价值高(Value High)。以视频安全监控为例,连续不断的监控流中,有重大价值者可能仅为一两秒的数据流;3600全方位视频监控的“死角”处,可能会挖掘出最有价值的图像信息。
  基于大数据的四大特征可以看出,需要处理的数据量正急剧膨胀,为了从海量的数据中发现知识并加以利用,甚至指导人们的决策,就必须对这些数据进行深入的分析。最典型的大数据分析技术就是关系数据管理技术(RDBMS)和MapReduce技术。
  2RDBMS与MapReduce的简介
  2.1RDBMS。关系型数据库管理系统,relational database management system 简称RDBMS,是SQL的基础,也是所有现代数据库系统的基础。在数据库中,数据以表格的形式出现,许多行和列组成一张张表单,再由若干张表单组成database,形成数据库,应用于目前许多企业在线交易处理系统、内部管理系统和客户管理系统中。
  2.2MapReduce。MapReduce是一种编程模型,主要用途是大规模数据集(大于1TB)的并行运算,主要思想来源于函数式编程语言以及矢量编程语言。面对杂乱无章的互不相关的数据,Map可以解析每个数据,并从中提取出key以及value,即提取数据的特征,再经过MapReduce的Shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们就可以做进一步的处理,以便得到结果。简单的来说,可以这样理解MapReduce:把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。该技术最初由Google公司最早在2004年提出并展开应用。
  3RDBMS与MapReduce的竞争
  RDBMS经历过年的发展,技术已经非常成熟,并广泛应用在在众多领域中,而MapReduce技术随着其性能的提升,并广泛应用于搜索相关的数据分析工作后,迅速的成为了RDBMS的竞争者。
  RDBMS的最大优势在于性能。在近几十年的数据库研究中,许多先进的技术手段和算法都不断被引进,如索引、I/O共享、数据压缩、优化的数据连接等,但是在大数据时代,数据转移的方式却会对这些已经成熟的性能造成一定影响,主要原因是关系数据库管理系统在大数据时代,其扩展性遭到了前所未有的障碍,不能很好的胜任大数据分析的要求。总结起来,关系数据管理技术面临“大数据”时代,有如下集中缺陷:并行数据库软件级容错能力较差、并行数据库对异构硬件的支持有限、扩展性有限、数据处理及分析过程涉及大量的数据迁移和计算,分析延迟较高。
  当需要处理的数据量达到TB和PB级别时,传统方法已经几乎无法处理数据,而适合处理包括结构化、半结构化和非结构化数据类型的MapReduce则体现出了前所未有的优势。面对超大规模的数据,MapReduce技术可以采用例如Hadoop的创新构架,以使用较低成本的常规服务器存储并处理大量的数据;面对复杂的数据,MapReduce可以分析并存放各种原始数据格式,包括图像数据、多媒体数据、文本数据等;面对新的分析手段,新的算法包括自然语言分析、模式识别等,而MapReduce的思想来源本身就是编程语言,可以高效的与新的算法进行融合,进而对海量的数据进行处理和分析。
  下表是针对RDBMS和MapReduce的特点进行的比较:
   RDBMS MapReduce
  模式 内部支持 外部附加
  索引 内部支持 编程实现
  数据类型 结构化数据 结构化、半结构化、非结构化数据
  编程模型 声明性语言SQL 过程性语言
  性能 高 比RDBMS低
  灵活性 有限 大
  扩展性 上百节点 上千节点
  容错性 低,查询重启 高,子任务重新执行
  应用范围 在线事务处理、分析处理 批量处理、深度分析
  4RDBMS与MapReduce的共生
  如同自然界生物的生存存在生态系统一般,数据分析的生态系统也逐渐在大数据时代里发生变化。在RDBMS与MapReduce的竞争同时,也促进了两种技术的互相学习和渗透。MapReduce虽然具有较高的扩展性,但其技术缺乏类似SQL的标准声明性语言,只能依靠底层的编程语言来实现功能。因此,越来越多的数据研究人员开始倾向于两种技术的结合,基于RDBMS的成熟技术,在整个数据分析系统中,RDBMS可以承担数据集市的角色,为大数据分析平台提供原始数据源,而复杂深度的数据分析,则依靠高度可扩展的MapReduce技术完成。深度分析之后的汇总数据和分析结果再重新导入RDBMS,供用户观察和使用。另外,由于MapReduce技术良好的扩展性,可以实现大量数据的在线,即使是历史久远的数据也可以方便找出并进行分析,随着技术的发展再结合新的数据和新的算法,也有利于新知识的发现。
  随着全球数据爆炸式的增长,大数据时代已经来临,在庞大的数据量面前,想要获得其中有用信息并加以有效的处理以及分析,这对目前的技术与工具都提出了很大的挑战。面对大数据深度分析的挑战,关系数据库技术虽然日臻成熟,但其扩展性却并不适应大数据的应用要求,并且,SQL的表达能力也不足以进行更加复杂、深入的数据分析。但是,MapReduce技术却刚好可以弥补RDBMS的不足,其良好的扩展性、容错性和并行性,可以随着其性能的不断改进和分析能力的不断增强,在大数据分析的技术体系中占据重要位置。关系数据库技术和MapReduce技术可以在互相竞争、互相学习和互相渗透过程中,发挥各自的优势,弥补不足,从而在大数据时代发挥出更大的作用。大数据的商业价值日益突出,受到广泛关注,在越来越多的领域中都发挥了巨大的影响。但是,在大数据面前,仍旧有着很长的路要走,迫使我们要不断发现存在的缺陷并加以解决,从而更好的让大数据为社会服务。
  参考文献:
  [1]罗奇.面向对象的数据库技术研究[J].电脑知识与技术,2010,7.
  [2]易小华,刘杰,叶丹.面向MapReduce的数据处理流程开发方法[J].计算机科学与探索,2011,2.
  [3]王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,10.
  [4]李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,3.
  [5]霍娜.非结构化数据时代下的信息管理之道[N].中国计算机报,2011,4,25.
  
其他文献
摘 要:当前很多个人、企业的网络带宽很大,但却常常发生网络堵塞的情况。用户的网速变慢,恶意程序盗取用户隐私资料,并通过联网将用户隐私数据上传到攻击者,或是未知蠕虫入侵电脑并尝试感染邻近主机,除危害到主机安全外,还有可能导致整个网络信息的泄露。本文在现有模型基础上,针对建立个人电脑对流量监控的需求,采用在NDIS驱动层的开发包设计并实现一款能够实时查看应用程序联网情况,流量分析以及流量进行控制的软件
期刊
摘 要:随着计算机行业的不断发展,信息安全问题已经成为人们所关注的重大问题。国内外市场上存在的安全软件大都是针对外部进行违规操作的攻击行为进行防御的运行模式,而针对防内部人员泄密的安全软件却并不多。针对这一现状,本文利用关键字匹配技术和HO0k技术,设计了一种防内部人员泄密的检索软件。  关键词:安全;检索;泄密;扫描;Hook  中图分类号:TP311.52  随着计算机行业的不断发展,信息安全
期刊
摘 要:在以数据为中心大数据时代,存储系统成为IT基础设施的核心,存储系统建设与资金投入的矛盾日显。本文以广东省科技图书馆为例,从数据类型特点与存储策略的角度探讨图书馆存储系统建设问题,构思独特新颖,具有较高针对性和实用参考价值。  关键词:需求分析;存储系统;存储策略;存储解决方案  中图分类号:TP333  在以数据为中心大数据时代,存储系统重要性逐步取代服务器,成为IT基础设施的核心。图书馆
期刊
摘 要:在当今虚拟网络中,传统的入侵检测系统明显表现出不适应性。虽然它能够向被监测中的活动主机给予很好的安全保护,清晰地反馈对受监测中网络的运作情况,并对系统发出异常请求的数据包进行拦截分析评估报警,同时又能排查网络发生的故障。但是,随着虚拟化网络的发展,传统的入侵检测系统也逐渐在虚拟环境中表现的有心无力。因此针对虚拟机的入侵检测系统是一个值得研究的课题。  关键词:虚拟化;入侵检测  中图分类号
期刊
摘 要:Mind Manager软件具有主题创建简单、素材库内容丰富等特点,应用于《思想道德修养和法律基础》课程教学中,具有总揽教材全局、提升学生创新思维能力等优势,有利于提高教学效果。但也存在着客观条件有限、投入时间较多等局限,有待进一步研究。  关键词:思维导图;课堂教学;应用  中图分类号:TP317.4  思维导图是英国学者托尼·巴赞(Tony Buzan)在20世纪60年代初期所创,是一
期刊
摘 要:随着计算机网络技术快速发展,为企业提供全球信息资源共享的同时,网络安全系统面临着巨大考验。传统网络安全体系已不能满足当前现代企业网络安全性能的要求,为确保莱钢网络安全运行,通过分析企业网络体系结构及功能特点,并设计了计算机网络信息系统安全建设目标及实施,确保了企业的网络信息安全。  关键词:计算机网络;安全管理;EAD  中图分类号:TP393.08  1 安全管理体系结构及功能  1.1
期刊
摘 要:随着计算机网络环境的不断发展,人们对计算机的依赖程度逐渐增强。这就使得计算机的网络安全被广泛关注,数据库是构成网络安全的重要组成部分,其中的安全和隐私保护也是重点问题。本文针对数据的完整性和机密性进行安全和隐私保护的研究,并提出合理化的建议。  关键词:数据库服务;网络安全;隐私保护  中图分类号:TP311.13  随着网络的不断发展和信息化的相互交流日益密切。计算机的网络信息安全尤为重
期刊
摘 要:随着网络信息技术的不断提高,互联网不断推动着社会经济发展,已经成为人们日常生活中不可或缺的一部分。我们对网络资源的开放和需求越来越大,网络安全问题日显突出,并受到人们前所未有关注。本文从计算机网络信息安全概念和存在威胁出发,结合目前主流计算机网络安全技术,提出网络信息安全防范措施。  关键词:计算机网络;信息技术;安全防范  中图分类号:TP393.08  随着信息技术的飞速发展,计算机网
期刊
摘 要:通过对校园学习和生活的种种观察,发现了一些问题和不方便之处,又对发现的问题和不方便作了综合分析,预测了一种未来校园管理与安全维护的发展方向,即一款软件包揽所有的校内业务,我们对该软件作了可行性分析,也看到了软件对未来及现在重大的意义,我们也在为此软件的诞生做努力,未来的校园会因这款软件焕然一新。  关键词:校园管理;计算机安全;网络校园  中图分类号:TP393.08  21世纪是一个网络
期刊
摘 要:针对在线社交网络朋友推荐问题,尝试利用描述多种关系的多子网复合复杂网络构建社交网络的复合网,引入连接度来表示对已连接朋友的喜爱程度,从而为用户提供个性化推荐。本文以微博中为用户推荐关注为例。  关键词:多子网复合复杂网络;连接度;个性化推荐;微博关注  中图分类号:TP301.6  近年来,国内微博快速发展,微博中蕴含大量的信息,而对某一用户而言,大部分信息是他并不感兴趣的,同时不同用户对
期刊